Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

切换五笔词库为极点五笔十周年版本 #3

Closed
wants to merge 1 commit into from

Conversation

networm
Copy link

@networm networm commented Mar 14, 2019

问题

由于 Rime 默认的五笔词库加入了词频,导致有些字的简体与繁体顺序出现了错误。

  • utem 第一位是 ,第二位才是
  • tvfh 第一位是 ,第二位才是

这只是其中的两例,可能整个词库还有数不清的错误。

五笔 86 版本来就是用来处理简体字的,大部分人应该都是使用五笔输入简体字的,所以我认为不应该让繁体字排在简体字之前。

猜测

嗯,我记得 2015 年的时候这个问题我就报告过:
wubi86 这个方案内部是简体字还是繁体字? · Issue #90 · rime/brise

但现在看来,是有人恶意将词频引入五笔词库中,正常词频可以只影响词,但是却连单词的频率也修改了。以此来故意劣化 Rime 五笔输入法(包括小狼豪、鼠须管、中州韻)。

我很喜欢这个输入法,已经将 Windows 与 macOS 上的输入法都换成 Rime 了:

所以我不并喜欢默认的五笔词库是一个残废,希望能改得更好一些。希望作者可以严格控制对五笔词库的改动,杜绝一切劣化的行为。

制作

词库重新使用极点五笔十周年版本导出重新制作,并同时增加单字库以方便只输入单字的用户。

制作方法:

  • 极点五笔输入法 - 官方网站 下载极点五笔十周年版
  • 在 Windows 7 电脑或虚拟机上安装后,打开选项导出系统词库
  • 使用 studyzy/imewlconverter: 一款开源免费的输入法词库转换程序 将其转换为 Rime 小狼豪版本
  • 将原有 wubi86.dict.yaml 码表前面的配置拷贝到新码表中,同时将 sort: by_weight 改为 sort: original 以保证码表顺序
  • 单字模式需要使用 vim 打开文件 wubi86.dict.yaml,输入 :40,$ g/^\S\{2,}/d 将所有不是单字的码项全部删除保存即可

Remove all wrong freqs from google
@lotem
Copy link
Member

lotem commented Mar 15, 2019

基於以下兩個理由,關閉工單:

  • 未取得上游發行者授權
  • 無法通過查看兩個版本的差異驗證這次修改是否解決了原碼表存在的問題、是否引入新的問題

@lotem lotem closed this Mar 15, 2019
@chenzhiwei
Copy link

非常感谢 @networm 的这个 PR 。

目前的五笔码表确实有点问题,五笔本来就是给简体字用的,现在却经常看到繁体字。

我一直被这个问题困扰着,刚刚正好看到这个 PR ,希望能将其 Merge 进去。

@lotem 关于第一条,我可以尝试联系极点五笔作者来获得期授权,请问第二条应该怎样做?专门制作个页面来放置 Diff 吗?

@chenzhiwei
Copy link

我目前的做法是:

  1. wubi86.dict.yaml命名成wubi86.jidian.dict.yaml,并将文件内名字改为wubi86.jidian,然后放置到Rime目录。

  2. 创建wubi86.custom.yaml文件,内容为:

    patch:
      translator:
        dictionary: wubi86.jidian
    

@lotem
Copy link
Member

lotem commented Nov 28, 2019

先解決授權問題吧。

解決第二個問題需要寫一些腳本比較兩份碼表,把增加、減少的字碼及重碼順序發生變化的地方篩選出來,再人工複覈。

@chenzhiwei
Copy link

试了好几个方法,已经联系不上作者了。

并且我也已经准备自己维护一套码表了。

@networm
Copy link
Author

networm commented Dec 7, 2019

其实极点五笔用的是窝子词库,我在 Twitter 上 @ 他了,但是暂时没有回应。

@networm
Copy link
Author

networm commented Jan 22, 2020

@lotem @chenzhiwei 已在 Twitter 上联系到作者:

狂飙 on Twitter: "@wozy 您好,我之前一直用极点五笔,感觉自带的窝子词库非常好用。现在极点五笔已不再更新,因此转而使用 Rime 输入法,但是 Rime 默认自带的五笔词库存在很多问题,请问可以将窝子词库授权给 Rime 输入法使用吗? https://t.co/aRHPj3vTbA" / Twitter
https://twitter.com/networm/status/1200588238089359360

窝子 on Twitter: "@networm hi,不好意思,有颇长一段时间没有用Twitter了,刚看到你的信息。可以的,建议让作者直接跟我联系。" / Twitter
https://twitter.com/wozy/status/1217819987668127745

@chenzhiwei
Copy link

我把 Diff 做出来了,步骤如下:

  1. 将文件头及注释全部删除

  2. 排序词库并只取前两列

    awk '{print $2" "$1}' wubi86.dict.yaml | sort -u > old.yaml
    
    awk '{print $2" "$1}' wubi86.dict.yaml.new | sort -u > new.yaml
    
    diff -u old.yaml new.yaml  > diff.txt
    

diff.txt

一共去掉了64401个组合,其中大部分都是乱码及繁体字,添加了919个组合。

add.txt

minus.txt

@Lawrence-of-AnKing
Copy link

2024年,问题依旧,没有任何改善

@chenzhiwei
Copy link

2024年,问题依旧,没有任何改善

来用我自己维护的词库吧,把繁体字、非标准字都删除了。

目前是我感觉最好的五笔词库了 😀

https://GitHub.com/chenzhiwei/rime

@networm
Copy link
Author

networm commented Jan 9, 2024

我也弄了一个方案,提取的微软五笔编码

Rime 86五笔单字方案 - 狂飙
https://networm.me/2022/08/07/rime-wubi86/

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants