训练卡在Saving checkpoints for 0 ，请问什么原因？ #12

xkungfu · 2020-11-06T08:14:26Z

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.

到这就停了。
Top命令，也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么？

sixmilesroad · 2020-11-09T10:36:02Z

我也遇到这个问题了，请问你解决了吗

xkungfu · 2020-11-09T21:31:09Z

没有解决。我无能为力了。你如果找到解决办法了麻烦分享一下，谢谢！你QQ或微信方便加一下吗？

xkungfu · 2020-11-12T06:09:34Z

我可能知道是什么原因了，可能是和机器性能有关。需要高配机器。我是4核8G云服务器。训练完可能要好几天或者干脆无法结束。

sixmilesroad · 2020-11-12T07:19:13Z

我试试，有结果告诉你

sixmilesroad · 2020-11-12T07:20:15Z

我有个别的能跑的代码，没用这个，这两天我试试这个

xkungfu · 2020-11-12T11:27:24Z

谢谢。你有高配机器的话，可以试试。

我用了另一个可以跑通，并且作者一直在线回复问题：
https://github.com/yongzhuo/Keras-TextClassification

sixmilesroad · 2020-11-13T08:02:42Z

试了，能跑通，代码没有问题。

Brokenwind · 2020-11-13T08:14:55Z

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.

到这就停了。
Top命令，也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么？

建议用GPU训练模型，目前的代码都是在GPU上调试通过的，用CPU训练基于bert的模型有点不适合

xkungfu · 2020-11-14T04:32:45Z

试了，能跑通，代码没有问题。

训练好的模型文件可否上传到网盘分享一下呢？谢谢！

xkungfu · 2020-11-14T04:35:21Z

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.
到这就停了。
Top命令，也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么？

建议用GPU训练模型，目前的代码都是在GPU上调试通过的，用CPU训练基于bert的模型有点不适合

训练好的模型文件，是不是通用的呢，是不是只要有了这个文件就不需要再训练就可以直接使用呢。
训练好的模型文件，也需要在GPU环境下才能使用么。

Brokenwind · 2020-11-16T04:03:56Z

INFO:tensorflow:Saving checkpoints for 0 into ...../model.ckpt.
I1107 14:10:38.075445 140053106304832 basic_session_run_hooks.py:606] Saving checkpoints for 0 into ....../model.ckpt.
到这就停了。
Top命令，也没找到python的进程。
4核cpu. ubuntu18.04.
有什么解决办法么？

建议用GPU训练模型，目前的代码都是在GPU上调试通过的，用CPU训练基于bert的模型有点不适合

训练好的模型文件，是不是通用的呢，是不是只要有了这个文件就不需要再训练就可以直接使用呢。
训练好的模型文件，也需要在GPU环境下才能使用么。

训练好的参数文件是通用的，有了训练好的参数文件可以直接使用。
训练好的参数文件CPU，GPU环境可以使用

Brokenwind · 2020-11-17T09:57:17Z

试了，能跑通，代码没有问题。

训练好的模型文件可否上传到网盘分享一下呢？谢谢！

https://pan.baidu.com/s/19pR3PS8AVIPpKZAXPkHdSA
提取码：fud8

xkungfu changed the title ~~相差特别大的句子，计算出的相似值却非常高，请问什么原因？~~ 训练卡在Saving checkpoints for 0 ，请问什么原因？ Nov 7, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练卡在Saving checkpoints for 0 ，请问什么原因？ #12

训练卡在Saving checkpoints for 0 ，请问什么原因？ #12

xkungfu commented Nov 6, 2020 •

edited

Loading

sixmilesroad commented Nov 9, 2020

xkungfu commented Nov 9, 2020 •

edited

Loading

xkungfu commented Nov 12, 2020

sixmilesroad commented Nov 12, 2020

sixmilesroad commented Nov 12, 2020

xkungfu commented Nov 12, 2020

sixmilesroad commented Nov 13, 2020

Brokenwind commented Nov 13, 2020

xkungfu commented Nov 14, 2020

xkungfu commented Nov 14, 2020

Brokenwind commented Nov 16, 2020

Brokenwind commented Nov 17, 2020 •

edited

Loading

训练卡在Saving checkpoints for 0 ，请问什么原因？ #12

训练卡在Saving checkpoints for 0 ，请问什么原因？ #12

Comments

xkungfu commented Nov 6, 2020 • edited Loading

sixmilesroad commented Nov 9, 2020

xkungfu commented Nov 9, 2020 • edited Loading

xkungfu commented Nov 12, 2020

sixmilesroad commented Nov 12, 2020

sixmilesroad commented Nov 12, 2020

xkungfu commented Nov 12, 2020

sixmilesroad commented Nov 13, 2020

Brokenwind commented Nov 13, 2020

xkungfu commented Nov 14, 2020

xkungfu commented Nov 14, 2020

Brokenwind commented Nov 16, 2020

Brokenwind commented Nov 17, 2020 • edited Loading

xkungfu commented Nov 6, 2020 •

edited

Loading

xkungfu commented Nov 9, 2020 •

edited

Loading

Brokenwind commented Nov 17, 2020 •

edited

Loading