清华团队领衔打造,首个AI agent系统性基准测试问世
2023/9/7 10:05:55 阅读:42 发布者:
尽管当前 AI 智能体研究异常火热,但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。研究结果显示,顶级商业语言模型(如 GPT-4)在复杂环境中表现出色,与开源模型之间存在显著优势。为此,研究团队建议,有必要进一步努力提高开源 LLMs 的学习能力。相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题,已发表在预印本网站 arXiv 上。另外,相关数据集、环境和集成评估包也已发布在 GitHub 上。(DOI:arXiv:2308.03688)
转自:“鲸锐学术”微信公众号
如有侵权,请联系本站删除!