Skip to content

Latest commit

 

History

History
55 lines (36 loc) · 2.96 KB

llama-zh-base.md

File metadata and controls

55 lines (36 loc) · 2.96 KB

LLama-zh

欢迎来到本开源项目Chatterbox-Llama-zh

简介

LLama-zh-base模型是基于目前llama系列的模型架构,从头重新预训练的LLama模型。 由于llama原模型本身并未在中文语料上单独训练,词表中也并未包括太多的中文字符。 本项目重新构建了Llama的分词工具与词表。并重新初始化了对应的模型,在中文领域上的持续预训练。

模型内容

Chatterbox-Llama-zh系列

模型名称 模型大小 链接
Chatterbox-Llama-zh-base 0.8B https://huggingface.co/TurboPascal/Chatterbox-LLaMA-zh-base
Chatterbox-Llama-zh-2b6 2B6 Coming soon

Notes:

  1. 本模型没有使用原LLaMA的权重,因此无需顾虑LLama权重协议的问题。

数据

预训练阶段使用开源数据与本项目爬取的部分数据。共使用约33G中文预训练数据

中文预训练数据

训练细节

  1. 由于原版llama对中文编码的支持不够友好,于是我重头训练了中文+英文的llama的tokenizer。重头训练tokenizers的代码和相关内容参见此处,使用从MC4中中文语料和英文语料里采样的数据。
  2. 数据集采用上述数据,参考本项目data部分的代码和train部分的代码。
  3. 训练配置:4*V100,训练时长约70-80小时。

测试评估

待完成

Star History

Star History Chart