您的位置：万维书刊网 >> 学术资讯 >> 学界研圈

SpatialVLM：教视觉语言模型学会空间推理

2024/1/30 17:15:09　阅读：142　发布者：

来自谷歌、麻省理工和斯坦福的研究团队开发了一个自动 3D 空间 VQA 数据生成框架，可在 1000 万张真实世界图像上生成 20 亿个 VQA 示例。SpatialVLM 以首个互联网规模的度量空间 3D 空间推理数据集为特色。通过在此类数据上训练 VLM，大大提高了 VLM 在定性和定量空间 VQA 方面的能力。

论文链接：

https://arxiv.org/abs/2401.12168

转自：“学术头条”微信公众号

如有侵权，请联系本站删除！

上一篇： WARM：提高LLM预测的整体质量和对齐
下一篇： OK-Robot：基于开放知识的新型机器人框架

学界研圈热门文章

泪目！胡爷爷老了,那十年,原来我们经历了那么多
一篇文章带你了解ITT、PP、FAS的概念
导师评价网
2023年两院院士增选或将启动，几个变化令人期待！
西安市教育局初三年级教师备考技能提升培训开启
最新！第五轮学科评估，这些高校A+
金属有机骨架增强型CO2高效选择性电解制乙烯
复旦大学：《严正声明》
272名教师获奖！2022年宝钢教育奖揭晓
一文看懂文献综述的写作结构、方法、步骤与常见问题

本站推荐

上海交通大学宋萍课题组高薪招聘4名博士后和2名科研助理

投稿问答最小化 关闭

SpatialVLM：教视觉语言模型学会空间推理

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

SpatialVLM：教视觉语言模型学会空间推理

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭