投稿问答最小化  关闭

万维书刊APP下载

用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

2024/1/27 11:07:03  阅读:70 发布者:

视频语言(VL)预训练在多个下游任务中取得了显著的改进。然而,目前的VL预训练框架很难扩展到视觉和语言之外的多种模式(N种模式,N>=3)。因此,我们提出了LanguageBind,将语言作为不同模态之间的绑定,因为语言模态已经得到了很好的探索,并且包含了丰富的语义。具体来说,我们冻结通过VL预训练获得的语言编码器,然后通过对比学习为其他模态训练编码器。结果,所有模态都映射到一个共享的特征空间,实现了多模态语义对齐。 (DOIarXiv:2310.01852

转自:“鲸锐学术”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com