RM数据构造 #55

tcxia · 2024-03-26T09:24:05Z

您好，想问下，论文中说选择10个不同的RM模型对同一个数据打分，这10个RM模型的选择标准是什么？

refrain-wbh · 2024-04-28T05:58:57Z

十个模型仅仅只有随机种子不同，利用随机性获得一个平均和稳定的reward model打分。

Syaoran1 · 2024-12-18T06:00:18Z

您好，想问下论文中说的用于给数据打分的奖励模型是基于什么模型训练的，随机种子指的是哪里的随机种子呢

refrain-wbh · 2024-12-18T11:39:14Z

基于llama 2 hf 随机种子就是就是random seed 可以打乱数据集的输入顺序 ---- 回复的原邮件 ---- ***@***.***>发送日期2024年12月18日 14:00 ***@***.***> 抄送人binghai ***@***.***>, ***@***.***>主题Re: [OpenLMLab/MOSS-RLHF] RM数据构造 (Issue #55) 您好，想问下论文中说的用于给数据打分的奖励模型是基于什么模型训练的，随机种子指的是哪里的随机种子呢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: ***@***.***>

Syaoran1 · 2024-12-19T07:20:32Z

基于llama 2 hf 随机种子就是就是random seed 可以打乱数据集的输入顺序 ---- 回复的原邮件 ---- @.>发送日期2024年12月18日 14:00 @.> 抄送人binghai @.>, @.>主题Re: [OpenLMLab/MOSS-RLHF] RM数据构造 (Issue #55) 您好，想问下论文中说的用于给数据打分的奖励模型是基于什么模型训练的，随机种子指的是哪里的随机种子呢 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you commented.Message ID: @.***>

感谢回复，请问这10个奖励模型的训练代码就是公开的那部分吗，我可以通过复现代码代码得到这10个奖励模型吗，谢谢

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

RM数据构造 #55

RM数据构造 #55

tcxia commented Mar 26, 2024

refrain-wbh commented Apr 28, 2024

Syaoran1 commented Dec 18, 2024

refrain-wbh commented Dec 18, 2024 via email

Syaoran1 commented Dec 19, 2024

RM数据构造 #55

RM数据构造 #55

Comments

tcxia commented Mar 26, 2024

refrain-wbh commented Apr 28, 2024

Syaoran1 commented Dec 18, 2024

refrain-wbh commented Dec 18, 2024 via email

Syaoran1 commented Dec 19, 2024