Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据格式的处理 #108

Open
suooous opened this issue Feb 8, 2025 · 13 comments
Open

数据格式的处理 #108

suooous opened this issue Feb 8, 2025 · 13 comments

Comments

@suooous
Copy link

suooous commented Feb 8, 2025

大神,您好,在您的提供的数据集中,提供的文件格式是 npy,但是你的参数设置的是 tsv文件格式的,请问如何解决

Image

Image

@ImaiChika
Copy link

这个是数据预处理得到的train_dataset.tsv、valid_dataset.tsv、test_dataset.tsv吧,用data_process/main.py生成的

@suooous
Copy link
Author

suooous commented Feb 23, 2025

那我们是从pacp文件处理而来,还是从这个npy文件处理而来

@ImaiChika
Copy link

ImaiChika commented Feb 23, 2025

这个main.py代码27行有一个pcap路径,40,41行是作者给的npy路径,不过他的是x_datagram_train.npy

@suooous
Copy link
Author

suooous commented Feb 23, 2025

所以说我们直接使用自己的pcap就可以了嘛,将pcap转化为tsv

@ImaiChika
Copy link

我是这样做的,tsv应该是用于微调的,不过我还没有生成微调模型

@suooous
Copy link
Author

suooous commented Feb 23, 2025

请问你现在做到哪一步了嘛

@suooous
Copy link
Author

suooous commented Feb 23, 2025

按照作者的意思,是不是直接下载它的模型,用我们自己的数据微调就可以了

@ImaiChika
Copy link

pretrained_model.bin应该是要下载的,我下一步是生成微调模型

@suooous
Copy link
Author

suooous commented Feb 23, 2025

好的,我最近也要重新训练一下,如果有什么问题,可以请教一下你嘛

@ImaiChika
Copy link

好的,我是刚开始接触这些的,可以交流一下

@suooous
Copy link
Author

suooous commented Feb 23, 2025

好的,十分感谢

@suooous
Copy link
Author

suooous commented Feb 28, 2025

好的,我是刚开始接触这些的,可以交流一下

请你复现到哪一步了嘛,我现在 用作者的npy文件生成了tsv文件,同时词汇表都是使用作者的,然后尝试去微调模型,但是出现了

return forward_call(*args, **kwargs)

File "D:\Anaconda3\envs\bertf\lib\site-packages\torch\nn\modules\sparse.py", line 164, in forward
return F.embedding(
File "D:\Anaconda3\envs\bertf\lib\site-packages\torch\nn\functional.py", line 2267, in embedding
return torch.embedding(weight, input, padding_idx, scale_grad_by_freq, sparse)
IndexError: index out of range in self

我查了资料,发现是 embedding 层出现了索引超出范围的问题。具体来说,是因为输入数据中的 token ID 超出了词表大小的范围。
请你你有遇到这个问题嘛

@ImaiChika
Copy link

这个我还没遇到

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants