投稿问答最小化  关闭

万维书刊APP下载

ConTextual:评估大型多模态模型中对上下文敏感的富文本视觉推理

2024/1/30 17:11:24  阅读:44 发布者:

来自加州大学洛杉矶分校的研究团队提出了一个评估大型多模态模型(LMMs)执行上下文敏感文本丰富的视觉推理能力(context-sensitive text-rich visual reasoning)指令的新基准—— ConTextual。研究表明,表现最好的 LMMGPT-4V(ision) 的整体性能仍然落后于人类。

论文链接:

https://arxiv.org/abs/2401.13311

转自:“学术头条”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com