用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单
2024/1/27 11:07:03 阅读:70 发布者:
视频语言(VL)预训练在多个下游任务中取得了显著的改进。然而,目前的VL预训练框架很难扩展到视觉和语言之外的多种模式(N种模式,N>;=3)。因此,我们提出了LanguageBind,将语言作为不同模态之间的绑定,因为语言模态已经得到了很好的探索,并且包含了丰富的语义。具体来说,我们冻结通过VL预训练获得的语言编码器,然后通过对比学习为其他模态训练编码器。结果,所有模态都映射到一个共享的特征空间,实现了多模态语义对齐。 (DOI:arXiv:2310.01852)
转自:“鲸锐学术”微信公众号
如有侵权,请联系本站删除!