Read this in English.
本项目持续收集整理并分享关于大语言模型的相关内容,主要包括以下三类:
- 持续收集整理并分享关于大语言模型的相关中文数据集:如预训练数据集、指令微调数据集、
- 提供中文对话模型 、中文基础模型及预训练框架构建。陆续开放不同规模的中文基础模型权重
- 分享基于中文大语言模型的相关应用及代码等。
- 中文NLP相关的可用的数据集,分享开源与发布新爬取的数据集。详细介绍见此
- 中文基础模型分享
- 基于BloomZ 1B2 的中文语言模型。裁剪词表和WordsEmbedding后参数量为0.9B左右,使用开源指令数据进行微调训练。目前主要使用Belle,alpaca_gpt4_data_zh,firefly 微调。
- 从头预训练中文LLaMA模型。
- Chatterbox-LLaMA-zh-base 使用33G语料从头预训练初始化的LLaMA-base中文模型,重新制作了中文词表与分词器。详细介绍见该文档 PS:已更新100G中文语料从头预训练版本
- 语言模型的相关应用
- 基于大模型的Web聊天Demo与微信机器人实现。
整理并当前可用的中文NLP相关的大模型训练的数据集,目前已整理30+。并陆续发布新爬取的中文数据集。
本项目爬取并整理的部分数据。
使用33G中文语料重头开始预训练的Llama-base模型,参数量约为0.8B左右。旨在提供可用的中小型基础模型。针对中文语料重新构建了embedding层和tokenizer,未经过指令微调。无需遵守原LLaMA权重协议。
- 新浪新闻数据(SinaNews),220万条新闻文档数据
- 人民日报数据(People's Daily Datasets),148万条人民日报数据(1949-2022)
- 维基百科(wiki2019zh),100万个结构良好的中文词条
- 新闻语料(news2016zh),250万篇新闻,含关键词、描述
- 社区问答json版(webtext2019zh),410万个高质量社区问答
- THUCNews数据(THUCNews) ,74万篇新闻文档(2.19 GB)
- 评论数据-语料 (comments2019zh_corpus),240万条评论数据
- 社区互动-语料 (webText2019zh_corpus),310W条社区互动数据
- 科学文献数据(CSL), 约40W篇中文核心期刊文献摘要
- Belle数据集
The use of this repo is subject to the Apache License