-
Notifications
You must be signed in to change notification settings - Fork 3k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
自定義vocab.txt #2649
Comments
ernie-1.0 的词表中,有部分unused 的 token,如果你新加的token不多的话,可以试一试替换 unused |
@ZHUI 謝謝回覆! 可是 |
需要的话,可以自己 resize 一下 vocab, 这里有一个 resize_position_embeddings 的例子。 #2513 |
@ZHUI 謝謝回覆! 那個例子看起來是 我看預設的設置內, 想請問就是如果我取用預訓練模型,我有辦法去更改這個設置嗎? 謝謝! |
没有关系的,这里是重新赋值了一遍 embedding PaddleNLP/paddlenlp/transformers/layoutlmv2/modeling.py Lines 825 to 834 in c92810b
|
@ZHUI 這個功能大約什麼時候會被merge進主分支呢? |
抱歉,可以试一下这个 https://github.com/PaddlePaddle/PaddleNLP/pull/2423/files |
@ZHUI 這個在develop分支,之後預計會release? |
本周内应该会有release |
各位先進大家好
想請問預訓練的
ernie-1.0
是否能夠自行擴增vocab.txt
例如以下的tokenizer
我們是否可以再自行新增token?
查詢了一下issue表發現有人問
ErnieGramTokenizer
#2022
但不知道
ErnieForSequenceClassification
是不是也無法自行擴增謝謝!
The text was updated successfully, but these errors were encountered: