Neural Computing 2022 | 多嵌入学习，通过虚拟属性解耦改进嵌入表示！

2022/10/26 11:33:28　阅读：165　发布者：

以下文章来源于FightingCV ，作者小马

【写在前面】

本文考虑基于文本的人物搜索问题，旨在根据查询文本描述找到目标人物。以前的方法通常侧重于学习共享的图像-文本嵌入，但在很大程度上忽略了行人属性的影响。属性是细粒度的信息，提供中级语义，并已被证明在传统的基于图像的人员搜索中有效。然而，在基于文本的人物搜索中，很难结合属性信息来学习有区别的图像-文本嵌入，因为（1）属性的描述在不同的文本中可能是不同的，（2）很难解耦与属性相关的没有属性注释帮助的信息。在本文中，作者提出了一种通过虚拟属性解耦 (iVAD) 模型改进嵌入学习，用于学习模态不变的图像-文本嵌入。这是第一个在基于文本的人员搜索任务中执行无监督属性解耦的工作。在 iVAD 中，本文首先提出了一种新颖的虚拟属性解耦（VAD）模块，该模块使用编码器-解码器嵌入学习结构从图像和文本中分解属性信息。在这个模块中，作者将行人属性视为一个隐藏向量，并获得与属性相关的嵌入。此外，与之前将属性学习与图像-文本嵌入学习分开的工作不同，作者提出了一种分层特征嵌入框架。通过属性增强特征嵌入 (AEFE) 模块将与属性相关的嵌入合并到学习的图像-文本嵌入中。所提出的 AEFE 模块可以利用属性信息来提高学习特征的可辨别性。广泛的评估证明了本文的方法在 CUHK-PEDES 数据集上优于各种最先进的方法。在 Caltech-UCSD Birds (CUB)、Oxford-102 Flowers (Flowers) 和 Flickr30K 上的实验结果验证了所提出方法的有效性。进一步的可视化表明，所提出的 iVAD 模型可以有效地发现相应图像-文本对中同时出现的行人属性。

1. 论文和代码地址

Improving embedding learning by virtual attribute decoupling for text-based person search

论文地址：https://link.springer.com/article/10.1007/s00521-021-06734-9[1]

代码地址：未开源

2. 动机

人员搜索是视频监控中的一项重要任务，旨在从大型行人图像数据库中找到目标人员。一项新兴任务是检索给定文本描述的正面实例，这被称为基于文本的人员搜索。文本描述随手可得，为目标人物提供全面的信息，基于文本的人物搜索越来越受到关注。基于文本的人员搜索是一个具有挑战性的问题。如上图所示，与传统的基于图像的人物搜索相比，基于文本的人物搜索由于模态异质性而更具挑战性，模型需要学习来自图像和文本的模态不变人物表示；与跨模态检索相比，基于文本的人物搜索是一个细粒度的检索问题。所有图像都属于同一类，即行人。由于具有相似外观的人，不同图像之间存在相似的手工注释描述，这使得这项任务比仅处理模态异质性更难

由于遮挡、背景杂波和姿势/视点变化的干扰，很难提取鲁棒的视觉表示。另一方面，图像和文本之间的模态差距导致模态间特征方差比模态内特征方差大得多。现有方法要么尝试在共享的潜在空间中学习图像和文本的联合嵌入，要么学习局部引导嵌入，从而构建相似性学习网络来计算图像文本对的匹配分数。基于局部引导嵌入学习的方法通过探索丰富的局部细节来学习有区别的图像-文本嵌入，实验结果已经证明了局部细节的优势，但仍然存在一定的主要局限性。

第一个限制是相似性学习网络。在计算图像-文本对的匹配分数时，大多数作品设计了一个相似性学习网络来计算匹配分数。早期作品学习对齐图像区域和单词。一些作品从文本中提取名词短语并尝试对齐图像区域和名词短语。对于图像-文本对，他们需要将局部引导的嵌入输入到预先设计的相似性网络中以获得匹配分数，这导致测试中的推理效率低下。

第二个限制是语义注释（包括人体姿势、属性、对象等）。许多作品利用语义注释来提取局部引导的图像嵌入。Liu 等人引入了预训练的 Faster RCNN来提取图像中的对象。Jing等人利用预先训练的人体姿态估计模型来估计人体姿态。一些作品结合属性学习来提取细粒度的属性相关特征。但是属性注释不可用，Aggarwal 等人从描述中收集候选名词短语作为属性注释，Wang 等人用 HRNet作为现成的工具来训练人类解析网络来提取相关的属性嵌入。这些方法在基于文本的人物搜索方面取得了很大进展，但它们需要额外的语义注释。预训练模型可以提供伪标签，但预训练数据集和 CUHK-PEDES 数据集之间的差距会引入噪声。

受上述问题的启发，作者在这里提出了一种通过虚拟属性解耦模型改进嵌入学习的新方法，以学习属性增强的图像-文本嵌入。通过以下方式解决上述问题：1）将属性公式化为隐藏向量并设计编码器解码器结构以解耦属性相关信息；2）设计一个分层特征嵌入框架，在联合嵌入空间中执行图像-文本特征学习和匹配。在这个框架中，中级特征是属性相关的；高级特征与身份相关。本文的目标是将属性信息整合到学习的特征中，以获得更具辨别力的图像-文本嵌入。

如上图b 所示，作者将行人属性视为可训练的隐藏向量。为了区分真正的行人属性，作者称这个隐藏向量为虚拟属性。本文的目标不是探索真正的行人属性，而是要学习属性相关embedding，将属性信息合并到学习的特征中。作者设计了一个编码器-解码器结构：将属性信息与中间特征（局部级特征）解耦，并使用生成的属性来重构全局级人物表示。具体来说，在编码器短语中，作者使用 self-attention 模块通过关注输入的不同部分（例如，区域/单词）从局部级特征中获得 K 个与属性相关的嵌入。然后，可以通过将嵌入投影到属性空间中来获得虚拟属性。在解码器阶段，虚拟属性被解码以重建全局级特征。来自同一输入的局部级和全局级特征编码相同的属性信息，促使作者设计一个编码器-解码器结构来解耦属性相关信息。对于匹配的图像-文本对，它们在属性空间中的位置应该接近；作者缩小他们的距离以减少模态差距。我们还应用了身份保持损失来确保学习到的与属性相关的嵌入保持身份信息。

除了与属性相关的嵌入之外，全局上下文在人物搜索中也很重要。全局特征不仅编码属性信息，还包含图像区域的空间关系和单词的顺序。这些潜在的语义方面也有助于更准确地识别行人。在本文中，作者设计了一个分层特征嵌入框架。结合属性相关的嵌入和全局表示来获得增强的图像-文本嵌入。与属性相关的嵌入和全局特征相辅相成，作者将它们结合起来，在最终的联合嵌入空间中获得图像-文本嵌入。作者在同一个嵌入空间中执行特征学习和图像文本匹配。

本文工作的主要贡献有四个：

1）提出了一种通过虚拟属性解耦 (iVAD) 模型改进嵌入学习的新方法，以学习对齐的图像-文本表示。设计了两个空间：属性空间是提取属性相关的嵌入；图像-文本嵌入空间是学习有区别的和保持身份的图像-文本嵌入。

2）在特征学习中执行无监督的特征解缠结。所提出的虚拟属性解耦（VAD）模块可以在不需要属性注释的情况下解耦属性相关信息。作者将行人属性表示为一个隐藏向量，并设计一个编码器-解码器结构来学习这个向量。据作者所知，这是第一个将无监督特征解耦引入基于文本的人员搜索的工作。

3）设计了一个分层特征嵌入框架；作者结合属性相关的嵌入和全局表示来获得属性增强的图像-文本嵌入。

4）在 CUHK-PEDES 数据集上进行的大量实验证明了本文方法的有效性，并表明本文的方法达到了最新的技术水平。在 CUB、Flowers 和 Flickr30K上的结果表明，所提出的方法也可以很好地推广到其他任务。

这些贡献不是理论上的，而是实践和方法论的。它们在现有技术的背景下很重要，因为（1）虚拟属性解耦模块将属性相关信息解耦，（2）将属性相关嵌入与全局特征相结合可以获得更具辨别力的图像-文本嵌入。

作者注意到 CMAAM 和 ViTAA还学习将人的特征空间分解为与属性相对应的子空间。本文的方法不同。首先，CMAAM和 ViTAA学习解开需要属性注释的属性相关信息。在本文的方法中，作者设计了一个编码器-解码器结构来执行特征解缠结。提出的 iVAD 模型不使用任何属性标签。其次，在 CMAAM和 ViTAA中，属性学习是学习更好的全局表示的辅助任务，学习的图像-文本嵌入不会将属性信息整合到学习的图像-文本嵌入中。作者设计了一个分层特征嵌入学习框架，如上图所示，它将属性相关嵌入与全局特征相结合，以获得更具辨别力的图像-文本嵌入。在实验中，作者表明使用相同的图像 CNN，本文的方法优于 CMAAM和 ViTAA。DME设计了一个划分和合并框架来学习人的表示。它利用自注意力来提取不同的局部图像-文本特征，然后设计一种基于相关性的子空间投影方法来聚合局部特征并在公共嵌入空间中获得图像和文本的向量表示。所提出的 iVAD 模型与 DME 不同：(1) iVAD 的目标是利用属性信息来学习更好的跨模态人表示，DME 研究如何提取和融合局部部分的表示。(2) 模型架构不同，DME设计单一的特征流来探索局部部分；iVAD 采用两个分支结构：局部级分支提取与属性相关的嵌入，全局分支与局部分支结合以解耦属性信息。

3. 方法

3.1 Modality-aware feature embedding

由于图像和文本样本属于不同的模态，作者使用两个不同的网络来提取它们对应的特征嵌入。

Image Feature Embedding

给定一个图像样本，我们采用直到 MobileNet 中的 Conv-13 层的子网络作为提取特征的骨干网络。首先，作者添加一个 1 x 1卷积层在 Conv-12 层之后的得到局部级特征嵌入，其中 d 是特征维度，N 是重构后的特征图大小。此外，作者在 Conv-13 层之后采用平均池化层和全连接 (FC) 层来计算全局级特征嵌入。

Text Feature Embedding

给定一个包含 T 个词的原始文本描述，首先将每个词编码为一个one-hot向量，并将其投影到一个 512 维的词向量中。之后，采用两个 Bi-LSTM分别生成局部级词嵌入和全局级文本嵌入。之后，采用两个 Bi-LSTM分别生成局部级词嵌入和全局级文本嵌入。第一个 Bi-LSTM 将词向量作为输入，并通过平均其前向和后向隐藏状态来计算每个词的表示。然后，采用 1 x 1 个卷积层将单词表示转换为局部级别的单词嵌入，。对于第二个 Bi-LSTM，每个词的输入是初始词向量和来自第一个 Bi-LSTM 的词表示的总和。类似地，每个单词的输出是通过平均前向和后向隐藏状态获得的。然后，作者使用一个最大池化层和一个全连接层将输出转换为 d维全局级文本嵌入，。

3.2 Virtual attribute decoupling

为了隐式解耦行人属性，作者引入了一个虚拟属性解耦模块来提取K个虚拟属性嵌入。直觉是将属性视为一个可训练的隐含向量，并设计一种编解码器结构来学习它。通过使用多头自注意模块来生成K个属性相关的嵌入来实现这种直觉，然后通过属性空间将这些嵌入与全局特征联系起来。

如上图所示，给定局部级特征，通过对所有位置之间的交互进行建模来计算第k个注意力图：

其中和是全连接层，以将特征维度减少到。然后，将注意力图乘以原始特征并执行全局平均池化以获得特征，

其中是一个完全连接的层，不改变特征维度。最后，在上应用一个全连接层来获得与属性相关的嵌入。重复这个过程 K 次以提取 K 个嵌入。这些嵌入作为虚拟属性嵌入。多头注意力允许模型在不同位置共同关注来自不同表示子空间的信息，这有助于解耦不同的属性信息。给定局部图像特征和局部文本特征，作者应用相同的多头自注意力模块来生成 K 个虚拟属性嵌入和分别用于图像和文本。图像和文本之间的参数共享有助于学习模态不变嵌入。

通过多头注意力模块，获得了图像和文本的 K 个嵌入：和。到目前为止，这些嵌入是独立于模态的，不携带任何属性信息。为了学习判别和语义虚拟属性嵌入，首先引入了一个属性空间。然后，嵌入通过 K 个跨模态共享二元属性分类器嵌入到属性空间中：

为了训练模型，作者引入了一个投影矩阵来使用属性预测来重构特征。与重建原始输入不同，重建全局级特征要容易得多。

属性由局部级特征生成，全局级特征应包含相同的属性信息。如上图所示，作者设计了一个跨层一致性损失

这间接地将全局级特征与局部级特征相关联，并构建一个编码器-解码器结构来学习虚拟属性嵌入。

跨层一致性只考虑文本模态内的信息。对于匹配的图像-文本对，文本描述和行人图像都编码相同的属性信息，但两种模态之间存在异质性差距。为了克服异质性差距，作者通过最小化它们的欧几里得距离来强制匹配的图像-文本对的预测属性是一致的。这是通过针对跨模态一致性损失进行优化来实现的：

其中 w 是模型参数。

作者通过跨层一致性损失和跨模态一致性损失来利用属性信息。但是属性与身份无关，不同的行人可能具有相同的属性，这会导致学习到的虚拟属性嵌入丢失身份信息。为了使学习到的嵌入包含身份信息，作者设计了一个身份保持损失。特别是，首先将所有的虚拟属性嵌入连接成一个长向量，然后将其投影到一个低维嵌入空间中，

其中是完全连接的层，以将维度减少到 d。然后，我们将每个嵌入分类到相应的身份类别中，身份保持损失表示为

其中 w 是模型参数，是第 i 个图文对的类 ID，是第 j 个身份的分类器，

通过结合这三个损失项，得到了最终的虚拟属性解耦损失 Li vad，用于学习模态不变和属性相关的嵌入，表示为：

3.3 Attribute-enhanced feature embedding

虚拟属性嵌入和编码丰富的属性信息和局部细节。但是，不能保证它们的可辨别性。属性反映了人的一个方面，而相关的虚拟属性嵌入通常关注人的特殊部分，因此虚拟属性嵌入不能有效地捕捉全局信息。特别是，它们缺乏输入的空间分布（图像区域的空间位置或单词的顺序）。全局级功能和编码全局上下文，但它们牺牲了一些局部细节。虚拟属性嵌入和全局级特征相互补充和促进。如上图所示，作者结合虚拟属性嵌入和全局级特征来获得属性增强的图像-文本嵌入。属性增强的图像-文本嵌入由下式计算

其中和是全连接层以将维度降低到 d。

4.实验

不同数据集的统计。

与 CUHKPEDES 上最先进的方法相比。

与以前在 CUB 和 Flowers 上的工作比较。

与以前在 Flickr30k 上的工作比较。

消融研究。

虚拟属性解耦（VAD）模块损失项的消融结果。

跨层一致性损失分析。

在 CUHK-PEDES 上通过文本查询进行人物搜索的示例。

在 CUHK-PEDES、CUB、Flowers 和 Flickr30k 数据集上评估不同数量的虚拟属性 K。我们将 K 从 0 更改为 36，并报告文本到图像任务的结果。

敏感性分析。

跨模态共享 VAD 的比较

虚拟属性响应图的可视化。

5. 总结

在这项工作中，作者提出了一种新颖的 iVAD 模型，从属性辅助嵌入学习的角度来解决基于文本的人员搜索任务。与现有的属性辅助方法相比，iVAD 在视觉和文本模态中利用了常见的属性相关信息，而不需要属性注释。特别是，所提出的 VAD 模块将属性信息与特征学习相结合，以提高跨模态理解。作者展示了 iVAD 在具有挑战性的基准 CUHK-PEDES 上取得了最先进的结果。在其他三个流行数据集上的实验表明，所提出的 iVAD 模型可以推广到其他任务。

转自：“arXiv每日学术速递”微信公众号

如有侵权，请联系本站删除！

上一篇： “秒”要被重新定义了，潘建伟团队这项“国际首次”研究功不可没
下一篇： 基于双目视觉的深度估计综述（顶刊TPAMI）

投稿问答最小化 关闭

Neural Computing 2022 | 多嵌入学习，通过虚拟属性解耦改进嵌入表示！

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

Neural Computing 2022 | 多嵌入学习，通过虚拟属性解耦改进嵌入表示！

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭