Releases: hankcs/HanLP
Releases · hankcs/HanLP
v1.2.3支持字符规范化
- 增加了字符正规化功能,该配置项位于hanlp.properties中,通过
Normalization=true
来开启 - 调整平滑参数,使得两个节点的代价一定比一个大
- 数词自动合并:零○〇一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟
- 防止原子分词造成图不连通
- 数据包依然兼容data-for-1.2.2.zip
v1.2.2并行化分词
1.分词器全面支持并行化分词:
segment.enableMultithreading(true); // 或者 segment.enableMultithreading(4);
2.修复JDK7下TextRankKeyword可能触发的issue #11
3.数据包小幅调整,修复了CRF标点黏着的问题:data-for-1.2.2.zip
4.Portable同步升级到v1.2.2,Maven:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.2.2</version>
</dependency>
v1.2.1
v1.2.0新增TnT分词器
- 分词器支持数词和数量词识别
- 消除CRF分词对句子开头的词语的错误合并
- 实现了一个基于HMM2-Trigram字符序列标注的分词器
- 加入了一些防止缓存不兼容的安全措施
- 词典减肥,新增TnT模型:data-for-1.2.0.zip
- 重构分词器
v1.1.5内存优化
- 词典由AhoCorasickDoubleArrayTrie降级为DoubleArrayTrie,内存占用减少一半
- 所以词典的缓存与旧版不兼容,请删除缓存或者下载data-for-1.1.5.zip
- 为减小配置难度,提供内置了mini数据包的Portable版,零配置,可以通过Maven直接引入:
<dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.1.5</version>
</dependency>