Releases: hankcs/HanLP
v2.1.0-alpha 104 languages, 10 tasks, dual backends
We are proud to announce the release of HanLP 2.1, which now offers 10 joint tasks on 104 languages: tokenization, lemmatization, part-of-speech tagging, token feature extraction, dependency parsing, constituency parsing, semantic role labeling, semantic dependency parsing, abstract meaning representation (AMR) parsing.
v1.7.8 常规维护
- CharType使用IOAdapter fix #1480
- portable文件补全
- 加入自定义词条“雄安”
- 数据包兼容data-for-1.7.5.zip
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.8
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.8</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.7 常规维护、多项改进
- 改进原子切分 fix #1421
- 修复聚类数目大于文档数目时引发的异常 fix #1397
- 使用构造函数代替静态NERInstance.create,方便子类继承
- 去掉 幺=么 fix #1427
- CRFModel support getting all tags
- 修复 AbstractClassifier.enableProbability fix #1423
- 开放 CWSEvaluator.Result 内部成员 fix https://bbs.hankcs.com/t/topic/887
- 公开HMM的成员
- 数据包兼容data-for-1.7.5.zip
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.7
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.7</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v2.0.0-alpha.0 NLP for the next decade
HanLP 2.0 embraces the state-of-the-art Natural Language Processing with Deep Learning and massive unlabeled corpora. Featuring updates are:
- Easy model building and serving with TensorFlow 2.0 and Keras.
- Multilingual Support.
- Tokenization, Part-of-Speech Tagging, Named Entity Recognition, Syntactic & Semantic Dependency Parsing, Document Classification via one unified interface.
Currently, HanLP 2.0 is in alpha stage with more killer features on the roadmap. For news and updates, join our forum.
v1.7.6 最后的武士 The Last Samurai
接下来是一个全新的时代,我们的征途是星辰大海。此后1.x分支将继续提供稳定性维护,两个版本面向的场景不同,2.0基于深度学习,面向对精度要求极其高的场景,例如端到端的问答系统解决方案;而1.x基于传统机器学习和特征工程,面向搜索引擎等对速度要求较高的场景。2.0需要时间打磨,1.x将会持续维护,保证稳定性。
- 新增 DocVectorModel.nearest(java.lang.String, int) 方法 fix #1332
- 词法分析器新增空格处理 fix #797
- 修订现代汉语补充词库 fix #1330
- NGramDictionaryMaker等默认UTF-8编码 fix #1320
- WordVectorModel支持自定义Map类型:#1304
- 修复信息熵计算中的除零错误 fix #1366
- 修复Nature的线程安全性
- tfidf,idf的数据可以通过加载idf文件得到
- 开放 CoreStopWordDictionary.dictionary #1356
- 修复加载自定义停用词文件无效
- 兼容数据包data-for-1.7.5.zip 或 分流 或 网盘
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.6
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.6</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.5《自然语言处理入门》随书代码
- 《自然语言处理入门》新书发布,欢迎查阅随书代码
一本零起点NLP入门书,基础理论与生产代码并重,Python与Java双实现。从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。《自然语言处理入门》由南方科技大学数学系创系主任夏志宏、微软亚洲研究院副院长周明、字节跳动人工智能实验室总监李航、华为诺亚方舟实验室语音语义首席科学家刘群、小米人工智能实验室主任兼NLP首席科学家王斌、中国科学院自动化研究所研究员宗成庆、清华大学副教授刘知远、北京理工大学副教授张华平和52nlp作序推荐。感谢各位前辈老师,希望这个项目和这本书能成为大家工程和学习上的“蝴蝶效应”,帮助大家在NLP之路上蜕变成蝶。
- 论坛蝴蝶效应上线!限时开放注册,用于交流讨论HanLP使用方法和读者反馈,格式比GitHub自由
- DocVectorModel支持自定义分词器、开/关停用词过滤器 fix #1253 (comment)
- 将换行空格等视作CT_OTHER fix #1283
- 修复repeated bisection聚类算法 fix #1260 (comment)
- 让CoreStopWordDictionary.apply返回结果
- 修复Analyzer的enableCustomDictionaryForcing方法 fix #1221
- 新数据包data-for-1.7.5.zip 或 分流
md5=1d9e1be4378b2dbc635858d9c3517aaa
- Portable版同步升级到v1.7.5
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.5</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.4 与OpenCC完全一致的简繁转换
- 无损转换OpenCC词典,结果一致 https://github.com/hankcs/OpenCC-to-HanLP fix #1184
- 停用词典支持热更新:fix #1158
- 修正URLTokenizer中的正则表达式 fix #1188
- 修复自定义词性 fix #1172
- 修正 CollectionUtility.sortMapByValue(java.util.Map<K,V>, boolean) fix #1159
- 修订人名词典
- 修正角色标注时“始##始”的A标签 fix #434
- Add unit tests for com.hankcs.hanlp.utility.MathUtilityTest and com.hankcs.hanlp.algorithm.EditDistance
- 微调bigram fix #1015
- 新数据包data-for-1.7.4.zip 或 海外 或 网盘
md5=0e2e1bfc4da6d9305909ce815cbe5a44
- Portable版同步升级到v1.7.4
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.4</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.3常规维护
- 感知机词法分析器默认使用98年人民日报6个月的大模型
- 优化DoubleArrayTrie fix #1136
- CRFNERecognizer支持在构造时传入自定义命名实体标签,新增addNERLabels方法 @zhangruinan
- 防止ViterbiSegment.dat不必要的初始化
- 修复词法分析器对动态插入的词条的处理 fix #271 (comment)
- 词法分析器seg接口支持自定义词性覆盖统计词性 fix #1156
- 修订拼音
- 新数据包data-for-1.7.3.zip 或网盘
md5=4e4f3695565a75b56427ba4a40731949
- Portable版同步升级到v1.7.3
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.3</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.2新的句法分析模块、多项改进
- 新增基于ArcEager转移系统的柱搜索依存句法分析器,废弃MaxEntDependencyParser
- 调整繁體分詞策略 fix #1059
- 修正卡方检验整型溢出的问题,准确率提升(95.47->96.08) fix #1075
- 使LexicalAnalyzer支持TranslatedPersonRecognition和JapanesePersonRecognition fix #1080
- 提示在线学习不可能学习新的标签
- tokenizer的seg2sentence修改为static
- 词法分析器默认关闭规则系统
- 修正CustomDictionary.reload(); fix #1100
- unigram、bigram微调
- 新数据包data-for-1.7.2.zip 或网盘
md5=2228732bae47b8dc8e410678af72847f
- Portable版同步升级到v1.7.2
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.2</version>
</dependency>
🎉感谢所有在issue中提出宝贵建议的用户!
v1.7.1高速缓存、动态词典
- 新增可自定义用户词典的维特比分词器 @AnyListen
- 利用BufferedOutputStream加速缓存生成,快37倍
- 自定义词典兼容含有空格的路径 fix #1025
- 增加isCustomNature方法
- 使热更新产生的缓存文件包含用户词性 fix #1028
- 修复可变DAT的entrySet方法 fix #1038
- 微调ngram,简繁等
- 新数据包data-for-1.7.1.zip
MD5 = 9b8faa7fc7fddb24e27da27bd404126d
- Portable版同步升级到v1.7.1
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.1</version>
</dependency>
感谢所有在issue中提出宝贵建议的用户!