-
Notifications
You must be signed in to change notification settings - Fork 89
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
数据格式的处理 #108
Comments
这个是数据预处理得到的train_dataset.tsv、valid_dataset.tsv、test_dataset.tsv吧,用data_process/main.py生成的 |
那我们是从pacp文件处理而来,还是从这个npy文件处理而来 |
这个main.py代码27行有一个pcap路径,40,41行是作者给的npy路径,不过他的是x_datagram_train.npy |
所以说我们直接使用自己的pcap就可以了嘛,将pcap转化为tsv |
我是这样做的,tsv应该是用于微调的,不过我还没有生成微调模型 |
请问你现在做到哪一步了嘛 |
按照作者的意思,是不是直接下载它的模型,用我们自己的数据微调就可以了 |
pretrained_model.bin应该是要下载的,我下一步是生成微调模型 |
好的,我最近也要重新训练一下,如果有什么问题,可以请教一下你嘛 |
好的,我是刚开始接触这些的,可以交流一下 |
好的,十分感谢 |
请你复现到哪一步了嘛,我现在 用作者的npy文件生成了tsv文件,同时词汇表都是使用作者的,然后尝试去微调模型,但是出现了
File "D:\Anaconda3\envs\bertf\lib\site-packages\torch\nn\modules\sparse.py", line 164, in forward 我查了资料,发现是 embedding 层出现了索引超出范围的问题。具体来说,是因为输入数据中的 token ID 超出了词表大小的范围。 |
这个我还没遇到 |
大神,您好,在您的提供的数据集中,提供的文件格式是 npy,但是你的参数设置的是 tsv文件格式的,请问如何解决
The text was updated successfully, but these errors were encountered: