投稿问答最小化  关闭

万维书刊APP下载

清华团队领衔打造,首个AI agent系统性基准测试问世

2023/9/7 10:05:55  阅读:37 发布者:

尽管当前 AI 智能体研究异常火热,但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。研究结果显示,顶级商业语言模型(如 GPT-4)在复杂环境中表现出色,与开源模型之间存在显著优势。为此,研究团队建议,有必要进一步努力提高开源 LLMs 的学习能力。相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题,已发表在预印本网站 arXiv 上。另外,相关数据集、环境和集成评估包也已发布在 GitHub 上。(DOI:arXiv:2308.03688

转自:“鲸锐学术”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com