-
Notifications
You must be signed in to change notification settings - Fork 69
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
训练卡在Saving checkpoints for 0 ,请问什么原因? #12
Comments
我也遇到这个问题了,请问你解决了吗 |
没有解决。我无能为力了。你如果找到解决办法了麻烦分享一下,谢谢!你QQ或微信方便加一下吗? |
我可能知道是什么原因了,可能是和机器性能有关。需要高配机器。我是4核8G云服务器。训练完可能要好几天或者干脆无法结束。 |
我试试,有结果告诉你 |
我有个别的能跑的代码,没用这个,这两天我试试这个 |
谢谢。你有高配机器的话,可以试试。 我用了另一个可以跑通,并且作者一直在线回复问题: |
试了,能跑通,代码没有问题。 |
建议用GPU训练模型,目前的代码都是在GPU上调试通过的,用CPU训练基于bert的模型有点不适合 |
训练好的模型文件可否上传到网盘分享一下呢?谢谢! |
训练好的模型文件,是不是通用的呢,是不是只要有了这个文件就不需要再训练就可以直接使用呢。 |
训练好的参数文件是通用的,有了训练好的参数文件可以直接使用。 |
|
INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.
到这就停了。
Top命令,也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么?
The text was updated successfully, but these errors were encountered: