Releases · hankcs/HanLP

26 May 08:51

hankcs

v1.2.3

90cd0a5

v1.2.3支持字符规范化

增加了字符正规化功能，该配置项位于hanlp.properties中，通过Normalization=true来开启
调整平滑参数，使得两个节点的代价一定比一个大
数词自动合并：零○〇一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟
防止原子分词造成图不连通
数据包依然兼容data-for-1.2.2.zip

Assets 3

11 May 06:11

hankcs

v1.2.2

ed7ff38

v1.2.2并行化分词

1.分词器全面支持并行化分词：

segment.enableMultithreading(true); // 或者 segment.enableMultithreading(4);

2.修复JDK7下TextRankKeyword可能触发的issue #11
3.数据包小幅调整，修复了CRF标点黏着的问题：data-for-1.2.2.zip
4.Portable同步升级到v1.2.2，Maven：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.2.2</version>
        </dependency>

Assets 3

08 May 03:53

hankcs

v1.2.1

8803d8f

v1.2.1

fixed issue #10
data与data-for-1.2.0.zip兼容，不必升级

Assets 3

07 May 13:42

hankcs

v1.2.0

85f62a8

v1.2.0新增TnT分词器

分词器支持数词和数量词识别
消除CRF分词对句子开头的词语的错误合并
实现了一个基于HMM2-Trigram字符序列标注的分词器
加入了一些防止缓存不兼容的安全措施
词典减肥，新增TnT模型：data-for-1.2.0.zip
重构分词器

Assets 3

02 May 15:32

hankcs

v1.1.5

d250a12

v1.1.5内存优化

词典由AhoCorasickDoubleArrayTrie降级为DoubleArrayTrie，内存占用减少一半
所以词典的缓存与旧版不兼容，请删除缓存或者下载data-for-1.1.5.zip
为减小配置难度，提供内置了mini数据包的Portable版，零配置，可以通过Maven直接引入：

        <dependency>
            <groupId>com.hankcs</groupId>
            <artifactId>hanlp</artifactId>
            <version>portable-1.1.5</version>
        </dependency>

Assets 3