【写在前面】
图像文本匹配作为一项基本任务,弥合了视觉和语言之间的鸿沟。这项任务的关键是准确测量这两种模态之间的相似性。先前的工作主要基于匹配的片段(即具有高相关性的单词/区域)来测量这种相似性,同时低估甚至忽略了不匹配的片段(即具有低相关性的单词/区域)的影响,例如,通过典型的 LeaklyReLU 或 ReLU强制负分数接近或精确为零的操作。这项工作认为,包含丰富不匹配线索的不匹配文本片段对于图像-文本匹配也至关重要。因此,作者提出了一种新的负感知注意力框架(NAAF),它明确地利用匹配片段的积极影响和不匹配片段的消极影响来共同推断图像-文本的相似性。NAAF (1) 巧妙地设计了一种迭代优化方法,最大限度地挖掘不匹配的片段,从而促进更具辨别力和鲁棒性的负面影响,以及 (2) 设计双分支匹配机制,以精确计算具有不同掩码的匹配/不匹配片段的相似度/不相似度。在两个基准数据集(即 Flickr30K 和 MSCOCO)上的广泛实验证明了本文的 NAAF 的卓越有效性,实现了最先进的性能。
1. 论文和代码地址
Negative-Aware Attention Framework for Image-Text Matching
论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Zhang\_Negative-Aware\_Attention\_Framework\_for\_Image-Text\_Matching\_CVPR\_2022\_paper.pdf[1]
代码地址:https://github.com/CrossmodalGroup/NAAF[2]
2. 动机
图像-文本匹配致力于弥合这两种异构模态之间的语义鸿沟,是计算机视觉 (CV) 和自然语言处理 (NLP) 中的一项基本任务。此匹配任务旨在搜索图像以获取给定的文本描述或查找文本。图文匹配的关键挑战在于准确学习
和文本的语义对应来衡量他们的相似性。
一般来说,现有的图文匹配方法有两种范式。第一个倾向于执行全局级别的匹配,即找到全文和整个图像之间的语义对应。他们通常将整体图像和文本投射到一个共同的潜在空间中,然后匹配这两种模态。第二范式侧重于检查局部级别的匹配,即图像中的显着区域与文本中的单词之间的匹配 。局部匹配考虑了图像和文本之间的细粒度语义对应。
最近,基于注意力的局部级别匹配被提出并迅速成为图像文本匹配的主流。SCAN及其各种变体是该方法的代表方法。关键思想是通过关注每个查询片段和另一个模态相关片段来发现所有单词区域对齐。综上所述,匹配的片段(即相关性得分高的词-区域对)对最终的图文相似度有很大贡献,而不匹配的片段(即相关性得分低的词-区域对)的影响会减弱甚至被擦除,例如,通过典型的 LeakyReLU 或 ReLU 在注意力过程中强制负分数接近或精确为零。尽管取得了可喜的性能,但这些方法完全忽略了不匹配的文本片段在证明图像-文本不匹配中的关键作用,因为它们描述的内容不在图像中。(事实上,图像通常包含更多的背景对象区域,因此我们主要关注不匹配的文本片段,即单词。)
因此,现有的方法主要是找到匹配的片段,而低估或忽略了不匹配片段的影响,将不可避免地容易产生假阳性匹配。即包含很多匹配片段但有一些不匹配的文本片段(直接表示图文不匹配)的图文对仍然可以获得很高的相似度,并且可能正确排名靠前,这肯定不是一个令人满意的结果,如上图(b)。因此,作者认为一个合理的匹配框架应该同时考虑两个方面,即图像-文本对的整体匹配分数不仅取决于匹配片段的正面影响,还取决于不匹配片段的负面影响(例如,
中未提及的单词可能会降低整体匹配分数)。例如,如上图(c)所示,通过进一步强调和挖掘错配片段的负面影响,这对假阳性很容易消除。
为此,作者提出了一种新颖的负感知注意力框架,该框架首次明确地考虑正匹配和负不匹配的片段来联合测量图像-文本的相似性(上图(a))。与单方面关注匹配片段的传统匹配机制不同,本文的注意力框架可以有效地挖掘不匹配的文本片段,并使用它们准确地反映两种模态的不同程度。从这个意义上说,作者将其称为负感知注意力框架(NAAF)。NAAF 由两个模块组成。(1) 作者设计了一种双分支匹配来解决不匹配片段的利用不足,它包含具有不同掩码的负注意力和正注意力,一个精确计算不匹配片段的相异度,另一个精确计算匹配片段的相似度. (2) 作者还提出了一种新的迭代优化方法来显式地建模和挖掘不匹配的片段。具体来说,基于错配和匹配片段的相似度分布,作者首先通过最小化错误重叠的惩罚概率来自适应地学习它们之间的最优边界,这在理论上可以保证挖掘的准确性。然后,将学习到的边界整合到注意力匹配过程中,以优化更具判别性的相似性分布。这种迭代优化将这两种分布尽可能强地分开,从而最大限度地挖掘不匹配的文本片段。通过这种方式,NAAF 不仅关注匹配的片段,而且还区分不同模式中细微的不匹配片段,以实现更准确的图像-文本匹配。
这项工作的主要贡献总结如下。:
1)提出了一种新颖的双分支匹配模块,它联合利用不匹配和匹配的文本片段来进行准确的图像-文本匹配。这是第一个明确利用不匹配线索的负面影响和匹配线索在图像-文本匹配中的积极影响的框架。
2)提出了一种新的带有负挖掘策略的迭代优化方法,可以显式地驱动不匹配片段的更多负面影响,并在理论上保证挖掘精度,产生更全面和可解释的图文相似度测量。
3) 在 Flickr30K 和 MS-COCO 两个基准上进行的大量实验表明,NAAF 优于比较方法。分析也很好地证明了本文方法的优越性和合理性。
3. 方法
本文提出的 NAAF 的总体框架如上图所示。首先提取图像区域和文本单词的特征,然后使用负效应和正效应进行负感知注意来测量图像-文本的相似性。在本节中,首先介绍提出的负意识注意力,然后描述目标函数和特征提取。
通常,对于图像-文本对,文本表示为单词的文本特征,图像表示为区域的视觉特征,其中 m 和 n 分别表示单词和区域的数量;d 是特征表示的维度。
3.1. Negative-aware Attention
给定一个图像-文本对,它可能包含丰富的匹配和不匹配片段。本文的目标是充分利用这两种线索来实现更准确的匹配性能。NAAF 框架中主要有两个模块,它们是 1) 判别性不匹配挖掘(第 3.1.1 节),旨在通过最小化匹配和不匹配相似度分布之间错误重叠的惩罚概率来显式建模和最大限度地挖掘不匹配片段在训练过程中;2) Neg-Pos 分支匹配(第 3.1.2 节),旨在通过设计的双分支匹配,即负注意力分支和正注意力分支,精确计算负不匹配和正匹配的影响,以联合推断相似性。接下来,将详细介绍这两个模块。
3.1.1 Discriminative Mismatch Mining
与不探索不匹配和匹配片段的精确相似性边界的现有方法不同,后者隐式使用固定零来区分它们,即通过典型的 ReLU 或 LeakyReLU 操作,作者期望显式和自适应地建模错配碎片和匹配碎片的相似度分布,旨在最大限度地分离它们以实现有效的错配碎片挖掘。
为此,在训练过程中,对于不匹配和匹配的词-区域片段对,作者首先对它们的相似度进行采样为:
其中 和分别定义为不匹配的词区相似度和匹配的词区相似度的集合。请注意,两个集合 和 在训练中使用索引 k 动态更新。事实上,对 和 进行采样是具有挑战性的,因为片段级单词-区域对不存在匹配的注释。
根据采样的两个集合 和,词-区域片段对的相似度 s 的不匹配和匹配概率分布可以建模为:
其中和分别是两个分布的均值和标准差。假设有一个边界t来区分一个词区域的相似度是不匹配还是匹配。如上图所示,区分错误是双重的,即真正不匹配的片段被区分为匹配的片段(在图中描绘为 E1),反之亦然(在图中描绘为 E2)。本文的目标是学习一个最佳边界,该边界可以最大程度地区分不匹配的片段,同时也降低错误概率,即 E1 和 E2,尽可能保证识别的准确性。因此,最优边界学习可以写成最小加权错误概率问题:
其中 t 是决策变量;α 是用于区分错配片段错误的惩罚参数;t ≥ 0 是匹配片段的充分条件。
为了找到方程的最小点,作者搜索它的一阶导数的零点,在 t ≥ 0 处截断(使用 [·]+ ≡ max(·, 0)),得到最优解为:
有两点值得强调。(1) 在训练过程中,这个明确的边界 tk,首先从不匹配和匹配片段的相似度分布中学习,然后将被整合到注意力匹配过程中,以调整更具区分性的相似度分布,从而创建迭代优化。这样,错配片段的分布将最大限度地与匹配片段的分布分开,其中错配片段可以产生更强大的负面影响。因此,不匹配的片段也可以作为有意义的线索来准确测量图像-文本的相似性。(2)在训练结束时,作者期望自适应学习边界tk能够同时保证最大挖掘不匹配片段,避免误判匹配片段导致性能下降。为了使学习边界收敛到具有更好挖掘精度的状态,我们给出调整初始惩罚参数α满足的理论条件:
其中。
3.1.2 Neg-Pos Branch Matching
与大多数现有的作品相比,这些作品只专注于加强匹配片段的注意力以关联跨模态共享语义,同时简单地削弱和忽略不匹配的片段。本文的双分支框架可以同时关注图像-文本对中不匹配和匹配的片段,通过使用不同的注意力掩码来分别精确测量它们在负面和正面注意力中的影响。具体来说,首先计算所有单词和区域之间的语义相关性分数:
Negative attention
在这个分支中,目标是准确有效地利用不匹配的片段,使它们对降低不匹配的图像-文本对的整体相似性有价值。文本模态中没有匹配图像区域的片段被认为是不匹配的。此外,与自适应学习相关边界相比,一个片段与另一个模态的所有片段之间的最大跨模态相似度反映了它是否不匹配或匹配的程度。因此,作者使用每个词片段和所有图像区域之间的最大池化相似度:
因此,图像-文本对 (U, V) 中第 i 个单词的负面影响,即它的不同程度,可以测量为:
其中为输入负数时为 1 的掩码,否则为 0;⊙表示点积。
此外,为了进行更准确的负面影响测量,作者还考虑了文本中单词片段的语义内关系,因为具有相似语义的片段应该具有相同的匹配关系。因此,每个单词匹配度的模态内传播如下:
Positive attention
该分支旨在衡量图像-文本对的相似程度,其中需要考虑两个方面。首先关注跨模态共享语义,即聚合每个查询词的匹配图像区域,以衡量匹配片段的相似度。具体来说,模态间注意力权重由下式计算:
其中是单词 ui 和图像区域 vj 之间的语义关系。表示当输入为正时,它等于输入,否则为-∞,其中不相关图像区域的注意力权重,即 sij - tk < 0,将被擦除为零。
对于第 i 个词,图像中对应的共享语义可以聚合为:。基于这个加权的图像特征,ui的相似度被测量为。
此外,词与区域之间的高相关性分数 sij 也反映了相似程度,因此作者也根据与词 ui 对应的相关性分数计算加权相似性为:,其中相关权重由计算,其中。
因此,图像-文本对 (U, V) 中匹配片段的积极影响可以衡量为:
最后,图像-文本(U,V)的相似度可以由负效应和正效应共同确定为:
3.1.3 Sampling and Updating Strategy
在本节中,将分别描述如采样和更新不匹配和匹配的单词区域片段对的相似性。尽管没有关于单词-区域对的匹配ground-truth,但通过图像-文本实例级匹配注释分配伪单词-区域相似度来解决这个问题。
具体来说,设计的采样建立在一个简单的事实之上:1)图像的真正对齐的文本应该与图像完全匹配,即对于文本单词,正确图像中至少有一个匹配区域。因此,作者从正确的图像中采样单词和图像区域之间的最大相似度为:
2)未对齐的文本与不正确的图像不匹配。实际上,对于未对齐的单词,错误图像中的所有区域都与它不匹配。但是,作者认为不匹配的单词区域相似度的最大值提供了最大的区分能力,因为它揭示了它们的上限。因此,对于单词,图像区域来自不正确的图像,作者还将最大的一个采样为:
其中更新是针对mini-batch中的每个文本。此外,为了对准确的伪词区域相似度标签进行采样,作者设计决定是否在每个采样时间更新和,这是基于计算的相似度排名的正确性。请注意,采样和更新操作仅在训练中执行。
3.2. Objective Function
遵循现有方法,本文采用的端到端训练的目标函数是双向三元组排序损失,它将对齐的图像-文本对的相似度限制为高于以固定边距未对齐的那些。此外,作者专注于优化产生最高损失的最难对齐的样本。给定真实图像文本对 (U, V ) 及其所有未匹配的对 (U, V ') 和(U ′, V )。
通过和选择最难对齐的样本。因此,目标函数写为:
其中 γ 是边距超参数,。
3.3. Feature Extraction
给定图像 V,它表示为一组显着区域特征 [v1, v2, . . . , vn] 。使用在Visual Genome上预训练的 FasterRCNN 检测显着对象和其他区域,作者选择前 K(K = 36)个proposal。然后,通过预训练的 ResNet-101通过均值池卷积特征提取检测到的区域。采用全连接层将每个区域映射到 1024 维特征。
给定一个包含 m 个单词的文本 U,作者将每个单词编码为一个 1024 维的向量 [u1, u2, . . . ,um]。每个单词首先被表示为一个one-hot编码,然后嵌入到一个预先训练的 GloVe 向量中。然后将向量输入双向门控循环单元 (BiGRU) 以整合前向和后向上下文信息。最后的词表示 ui 是双向隐藏状态的平均值。
4.实验
Flickr30K 测试集上的定量评估结果。
MS-COCO 1K 和 5K 测试集上的定量评估结果。
关于惩罚参数的消融研究。
关于模型设计的消融研究,在 Flickr30K 上获得。
具有不同惩罚权重 α 的判别性错配挖掘过程的可视化。
在NAAF 和现有方法中,不匹配词(蓝色)的负面影响和匹配词(红色)的积极影响的视觉比较。
5. 总结
在本文中,作者提出了一种新颖的负感知注意力框架,用于图像-文本匹配。与传统注意力不同,本文的方法可以同时关注不匹配和匹配的片段,以明确利用它们的负面和正面影响,其中构建了有效的迭代优化以最大限度地挖掘负面不匹配片段,产生区分和鲁棒的负面影响。此外,双分支匹配机制能够分别测量准确的相似度/不相似度,共同推断整体图文相似度,解决了现有方法中对错配线索的忽视。综合实验证明了本文的 NAAF 框架的优越性
转自:“arXiv每日学术速递”微信公众号
如有侵权,请联系本站删除!