投稿问答最小化  关闭

SpatialVLM:教视觉语言模型学会空间推理

2024/1/30 17:15:09  阅读:27 发布者:

来自谷歌、麻省理工和斯坦福的研究团队开发了一个自动 3D 空间 VQA 数据生成框架,可在 1000 万张真实世界图像上生成 20 亿个 VQA 示例。SpatialVLM 以首个互联网规模的度量空间 3D 空间推理数据集为特色。通过在此类数据上训练 VLM,大大提高了 VLM 在定性和定量空间 VQA 方面的能力。

论文链接:

https://arxiv.org/abs/2401.12168

转自:“学术头条”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com