LLama-zh

欢迎来到本开源项目Chatterbox-Llama-zh

简介

LLama-zh-base模型是基于目前llama系列的模型架构，从头重新预训练的LLama模型。由于llama原模型本身并未在中文语料上单独训练，词表中也并未包括太多的中文字符。本项目重新构建了Llama的分词工具与词表。并重新初始化了对应的模型，在中文领域上的持续预训练。

Chatterbox-Llama-zh系列

模型名称	模型大小	链接
Chatterbox-Llama-zh-base	0.8B	https://huggingface.co/TurboPascal/Chatterbox-LLaMA-zh-base
Chatterbox-Llama-zh-2b6	2B6	Coming soon

Notes:

预训练阶段使用开源数据与本项目爬取的部分数据。共使用约33G中文预训练数据

由于原版llama对中文编码的支持不够友好，于是我重头训练了中文+英文的llama的tokenizer。重头训练tokenizers的代码和相关内容参见此处，使用从MC4中中文语料和英文语料里采样的数据。
数据集采用上述数据，参考本项目data部分的代码和train部分的代码。
训练配置：4*V100，训练时长约70-80小时。

待完成