-
Notifications
You must be signed in to change notification settings - Fork 318
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
如何从原数据获取DIN数据 #21
Comments
DIN用的不是criteo数据集,参考DeepMTL |
您好,我下载了链接里面的天池数据,但是他的命名结构依然不是get_tfrecord.py中的"-"格式。是否官方更换了数据,或者您可以提供下部分处理好的数据吗?希望可以先跑通代码,看看模型结构。 |
参考DeepMTL/feature_pipline |
参考了get_tfrecord.py,看你DeepMTL说明是跑这个,但是数据格式不对。 |
我看里面有.sh文件使用了hadoop,如果是处理aliccp数据的可以请您给下使用方法吗?我不会用这个,还要请别人帮忙跑。例如是get_join那几个文件。 |
原始文件 -----> libsvm ----> tfrecords |
我看您写的get_join以为是“原始数据——>libsvm”的处理,如果您写好了,我想通过已有的设备先把数据处理部分略过,首先关注模型本身。 |
解决方法:跳过天池数据集数据处理部分,使用假数据,例如1,0,0,216:19:1.0 301:11:1.0 205:10:1.0 206:16:1.0 207:17:1.0 508:23:2.30259 210:19:1.0 210:20:1.0 210:21:1.0 210:22:1.0 210:24:1.0 127_14:14:2.3979 127_14:25:2.70805 多粘贴几行,能跑就行。 |
用你的办法,还是模型跑不通,请问一下,你这边跑通了吗 |
我跑这个代码会出现 Process finished with exit code 1 |
我下载了数据集,但是aliccp文件里面读取数据部分和数据集命名,格式都不同,无法处理,请问是否更换了数据集?
criteo数据集里只有reademe.txt,train.txt,test.txt,并没有aliccp中的*-*命名,其中也没有“,”分隔符
The text was updated successfully, but these errors were encountered: