主要补充来自 NLP 语料分词词表、网络百科词条名等数据。 相比出版词典等,数据量级更大,囊括更多新词、长词。 由于主要来自网络文本,数据污染问题较严重,如含特殊字符,敏感类字词较多(NSFW),同存在非规范词形、繁简混杂等情况。 如用于输入法词库、模型训练等场景,请慎重使用。
- 常用规范词表和专名词见:https://github.com/zispace/hanzi-words
- 搜狗词库见:https://github.com/zispace/dict-scel; 官网https://pinyin.sogou.com/dict/
- 网络百科词条:
- 维基百科(中文)
- 百度百科
- 腾讯词向量
- 部分输入法词库(转换成纯文本词表)
- 高校名称
- 反义词对
- 鸿雁拼音 https://forum.freemdict.com/t/topic/15303/
- ……
- 《现代汉语方言大词典》(PDF) https://github.com/ZWolken/Great-Dictionary-of-Modern-Chinese-Dialects
- 人名(人物、名人、文学家、字号、名字)词典索引 https://forum.freemdict.com/t/topic/15726
- 人名地名类辞典 10 部 https://forum.freemdict.com/t/topic/33176
- 搜狗输入法细胞词库 https://github.com/zispace/dict-scel, https://pinyin.sogou.com/dict/
- Rime 配置:雾凇拼音 https://github.com/iDvel/rime-ice
- Rime 配置:白霜拼音 https://github.com/gaboolic/rime-frost
- Rime 配置:RIME 词库增强 https://github.com/Iorest/rime-dict/
- 中文维基百科拼音词库(Fcitx 5) https://github.com/felixonmars/fcitx5-pinyin-zhwiki
- 单手笔顺输入法码表: https://gitee.com/yq-ysy/one-hand_code https://github.com/YQ-YSY/stroke-seq_MB
- 自建拼音输入法词库(Fcitx5/GBoard) https://github.com/wuhgit/CustomPinyinDictionary
- Gboard 词库语料库 https://github.com/entr0pia/corpus-of-gboard_dict_3
- 单手笔顺输入法(码表) https://gitee.com/yq-ysy/one-hand_code, https://github.com/YQ-YSY/stroke-seq_MB
- 小麥注音輸入法 https://github.com/openvanilla/McBopomofo/
- HanLP 词库 https://github.com/hankcs/HanLP
- 敏感词/审查词汇总:https://github.com/hantang/data-corpus/tree/main/censorship
- 同义词 https://github.com/jaaack-wang/Chinese-Synonyms
- 中文、日文、英文人名语料库:https://github.com/wainshine/Chinese-Names-Corpus
- CCNC 大型中文姓名语料库 https://github.com/jaaack-wang/ccnc
- NER 数据集 https://github.com/GuocaiL/nlp_corpus
- 公司和机构名语料库 https://github.com/wainshine/Company-Names-Corpus
- THUOCL 中文词库(IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物等类)https://github.com/thunlp/THUOCL, http://thuocl.thunlp.org
- 领域词汇知识库(涵盖 68 个领域、共计 916 万词) https://github.com/liuhuanyong/DomainWordsDict
- 刘邵博词典360万(个人整理).txt https://github.com/fkxxyz/chinese-dictionary-3.6million
- Gboard输入法的中文词库 https://github.com/Konne06/Gboard-Pinyin