投稿问答最小化  关闭

万维书刊APP下载

WARM:提高LLM预测的整体质量和对齐

2024/1/30 17:15:36  阅读:37 发布者:

将基于人类反馈的强化学习(RLHF)和大型语言模型(LLMs)对齐可能会导致奖励破解,LLMs 利用奖励模型(RM)中的失误来获得看似很高的奖励,却没有达到基本目标。为此,来自谷歌公司的研究团队提出了加权平均奖励模型(WARM)。实验表明,WARM 提高了 LLM 预测的整体质量和一致性;例如,使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比,胜率高达 79.4%

论文链接:

https://arxiv.org/abs/2401.12187

转自:“学术头条”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com