如何训练自己搜集的语料 #14

ZNZHL · 2018-05-27T14:35:22Z

本人搜集了一些语料，格式是txt，形式是（问题a回答b问题c回答d......，分行），不知道如何训练？请大神解答

yaleimeng · 2018-09-14T09:08:32Z

训练数据的格式（扩展名为.conv）：
E
M 你好/，/在/吗
M 请/向/我/提问/吧
E
M 好厉害/~
M 我/师父/教/得/好
E
具体操作步骤在chatbot目录下有说明。依次执行extract、train、test即可。

RaymondJSu · 2019-08-08T02:36:59Z

@yaleimeng
请问自己蒐集的没有到百万条也可以进行训练吗?
是哪边的参数要做修改呢?

yaleimeng · 2019-08-08T07:04:34Z

@axa000 没有百万条也不要紧，但至少还是要几万条级别。接触时间比较早，只要语料处理好了，应该example是能直接跑起来的。
不过这种seq2seq方案只适合对应答正确性、合理性要求比较低的闲聊场景。目前在语句通顺等方面还有不少局限。

RaymondJSu · 2019-08-08T07:45:36Z

@yaleimeng 谢谢你的回复!
确实训练完常常答非所问
但gitgub上好像找不到更好的中文机器人?

Provide feedback