WARM:提高LLM预测的整体质量和对齐
2024/1/30 17:15:36 阅读:37 发布者:
将基于人类反馈的强化学习(RLHF)和大型语言模型(LLMs)对齐可能会导致奖励破解,LLMs 利用奖励模型(RM)中的失误来获得看似很高的奖励,却没有达到基本目标。为此,来自谷歌公司的研究团队提出了加权平均奖励模型(WARM)。实验表明,WARM 提高了 LLM 预测的整体质量和一致性;例如,使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比,胜率高达 79.4%。
论文链接:
https://arxiv.org/abs/2401.12187
转自:“学术头条”微信公众号
如有侵权,请联系本站删除!