您的位置：万维书刊网 >> 学术资讯 >> 学界研圈

清华团队领衔打造，首个AI agent系统性基准测试问世

2023/9/7 10:05:55　阅读：169　发布者：

尽管当前 AI 智能体研究异常火热，但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。研究结果显示，顶级商业语言模型（如 GPT-4）在复杂环境中表现出色，与开源模型之间存在显著优势。为此，研究团队建议，有必要进一步努力提高开源 LLMs 的学习能力。相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题，已发表在预印本网站 arXiv 上。另外，相关数据集、环境和集成评估包也已发布在 GitHub 上。（DOI:arXiv:2308.03688）

转自：“鲸锐学术”微信公众号

如有侵权，请联系本站删除！

上一篇： 长期施用氮磷肥会怎样？科学家发现了惊人的结果
下一篇： 大模型=缸中之脑？通院朱松纯团队剖析AGI关键缺失

学界研圈热门文章

本站推荐

上海交通大学宋萍课题组高薪招聘4名博士后和2名科研助理

投稿问答最小化 关闭

清华团队领衔打造，首个AI agent系统性基准测试问世

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

清华团队领衔打造，首个AI agent系统性基准测试问世

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭