您的位置：万维书刊网 >> 学术资讯 >> 学界研圈

WARM：提高LLM预测的整体质量和对齐

2024/1/30 17:15:36　阅读：72　发布者：

将基于人类反馈的强化学习（RLHF）和大型语言模型（LLMs）对齐可能会导致奖励破解，LLMs 利用奖励模型（RM）中的失误来获得看似很高的奖励，却没有达到基本目标。为此，来自谷歌公司的研究团队提出了加权平均奖励模型（WARM）。实验表明，WARM 提高了 LLM 预测的整体质量和一致性；例如，使用 WARM 进行微调的策略 RL 与使用单一 RM 进行微调的策略 RL 相比，胜率高达 79.4%。

论文链接：

https://arxiv.org/abs/2401.12187

转自：“学术头条”微信公众号

如有侵权，请联系本站删除！

上一篇： PhotoMaker：一种高效个性化定制人像照片的文生图模型
下一篇： SpatialVLM：教视觉语言模型学会空间推理

学界研圈热门文章

本站推荐

上海交通大学宋萍课题组高薪招聘4名博士后和2名科研助理

投稿问答最小化 关闭

WARM：提高LLM预测的整体质量和对齐

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

WARM：提高LLM预测的整体质量和对齐

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭