Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

新增日本新字體。 #371

Open
wants to merge 2 commits into
base: master
Choose a base branch
from
Open

Conversation

edward-martyr
Copy link

包括唯一標準的日本字形(如「粤」而不是「」,「隣」而不是「」。「」、「」在《大辞林》皆查無此字)以及擴張新字體(如被新聞界使用的「𦜝」,標準字形是「」)。

Copy link
Contributor

@sgalal sgalal left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

謝謝!

粗略地看了一下,發現有下面兩個問題,你能否再重新校對一次?

一、異體字的情況

例如:

貮	貳

OpenCC 標準字就是「貳」,不是「貮」,因此不應該收錄。

又如:

龝	穐

左邊「龝」是異體字,不是 OpenCC 標準字,因此不應該收錄。

二、不恰當的地方

例如:

卒	卆

日文寫「卒業」,不是「卆業」吧?

又如:

蕟	𫈴

右邊這個「𫈴」下面是「癶」+「开」,不是「発」。左右兩字不是同一個字。

@edward-martyr
Copy link
Author

@sgalal 你好,

我檢查了一下相關問題,

異體字
貮 貳 應該予以刪除。
龝 穐 是因爲「龝」是「秋」的異體字嗎?如果是這個原因,應刪除。

「卒」及其孳乳字
日本新字體對該字的處理比較奇怪:孳乳字(如「碎」「醉」)一併簡化(如「砕」「酔」)。雖然「卒」作「卆」例亦有,不過確實以「卒」爲通行用法(68%,見「卆」と「卒」),故考慮刪除,而其他孳乳字如 埣 𡉻 予以保留。

「𫈴」字形
IPA明朝中「𫈴」(CJK UNIFIED IDEOGRAPH-2B234)的字形是
𫈴
GlyphWiki 卻錄有 ⿱艹発⿳艹癶开 兩種寫法,也並無分別 Unicode 碼位(⿱艹発u2b234-ue0100)。我傾向認爲 ⿱癶开 在某些字體使用錯誤的字形構成描述而做出的誤形/錯誤實現,並不影響 u2b234 這個碼位代表「蕟」的擴張新字體,因而不應刪除。

@sgalal
Copy link
Contributor

sgalal commented Feb 24, 2020

關於「𫈴」字我補充一下,該字位於擴展 C 區,經查詢 Unicode 相關文檔可知該字是台灣提交的,來源為 CNS 11643 中文標準交換碼。在 CNS 11643 中文全字庫搜索可知,該字讀音為 ㄗㄤˋ/zàng,來源為內政部户政用字。因此該字與「蕟」是不一樣的。

@edward-martyr
Copy link
Author

@sgalal
原來如此!謝謝,我已修改。

@BYVoid
Copy link
Owner

BYVoid commented Mar 27, 2020

我大致看了基本可行,能說明一下這些字收集的來源嗎?

@edward-martyr
Copy link
Author

edward-martyr commented Apr 3, 2020

@BYVoid 這些增補系從我個人在Rime使用的轉換碼表去重而來。其主要來源是Rime提供的nippon_variants。另有我從 ids 收集的一些字,竝不完全。

卮 巵
髡 髠
箋 䇳
剾 𠛅
Copy link
Owner

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

不建議加入Unicode BMP之外的擴張新字體。

@danny0838
Copy link
Contributor

danny0838 commented Jun 26, 2020

就我目前查到的資料,所謂擴張新字體是類似類推簡化字的字,並非官方明訂,但官方也未明確禁止使用。

我想,應該要考察日本實際使用情況,如果幾乎所有場合使用擴張新字體都是壓倒性的多數,可以直接加入。如果有為數不少的場合(例如正式場合用字等)不使用擴張新字體,或許擴張新字體應該獨立成另一個轉換表,並且把轉換方案分成「舊字體轉新字體」及「舊字體轉新字體(含擴張)」。

關於ByVoid提到應避免SMP用字的議題,我認為也需要考察,如果日本幾乎所有使用擴張新字體的場合都會使用那些SMP用字,那就應該加入;幾乎所有使用擴張新字體的場合都不使用,就不加入。如果有時會用有時不用,可以獨立成另一個表。

在尚未考察的當下,或萬一考察有其困難,我個人傾向把擴張新字體另立一表,並且包含所有 SMP 字,也就是「要嘛就不用擴張,要嘛就盡可能擴張」的概念。如果有人要用擴張新字體又不想用 SMP 字,那就勞駕他自己修改碼表了XD(或是等有人實做 #217 的方案)。

@danny0838 danny0838 mentioned this pull request Jul 10, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants