Chatterbox

Read this in English.

本项目持续收集整理并分享关于大语言模型的相关内容，主要包括以下三类：

中文NLP相关的可用的数据集，分享开源与发布新爬取的数据集。详细介绍见此
中文基础模型分享
1. 基于BloomZ 1B2 的中文语言模型。裁剪词表和WordsEmbedding后参数量为0.9B左右，使用开源指令数据进行微调训练。目前主要使用Belle,alpaca_gpt4_data_zh,firefly 微调。
2. 从头预训练中文LLaMA模型。
  1. Chatterbox-LLaMA-zh-base 使用33G语料从头预训练初始化的LLaMA-base中文模型，重新制作了中文词表与分词器。详细介绍见该文档 PS:已更新100G中文语料从头预训练版本
语言模型的相关应用
1. 基于大模型的Web聊天Demo与微信机器人实现。

数据集

整理并当前可用的中文NLP相关的大模型训练的数据集，目前已整理30+。并陆续发布新爬取的中文数据集。

本项目爬取并整理的部分数据。

使用33G中文语料重头开始预训练的Llama-base模型，参数量约为0.8B左右。旨在提供可用的中小型基础模型。针对中文语料重新构建了embedding层和tokenizer，未经过指令微调。无需遵守原LLaMA权重协议。

The use of this repo is subject to the Apache License