CVPR(Computer Vision and Pattern Recognition)由IEEE主办,是计算机视觉领域的三大顶会(CVPR、ICCV、ECCV)之一。CVPR代表着AI学术领域的世界前沿水平。今年最终有2067篇论文被接收,接收率约为25%,Oral接收率更是不到5%。
华为诺亚方舟实验室此次在CVPR 2022上有多篇文章被接收,其中4篇文章入选Oral。研究方向涵盖AI计算成像、3D全感知、视觉中高层语义分析、OOD泛化、AI无损压缩、AI极简计算、图文生成、因果学习等多个方面。具体文章列表见文末。
我们将分成两期对相关文章进行介绍,其中第一期包含AI计算成像、3D全感知、图文生成、AI无损压缩等。
CVPR 2022代表性工作介绍
1.(Oral) Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular 3D Object Detection
从单目图像中估计深度是3D目标检测中最具挑战的课题。多数检测方法借助一些预置的假设来弥补信息的缺失,以获取对深度值的估计。然而,在实际应用中,预置假设并不总是成立的,并因此造成对目标深度估计精度的退化。为了解决这个问题,我们设计了一个深度解算系统,这个系统充分利用来自多个子任务的视觉线索,对单一目标同时产多样化的深度估计。本质上,多样化的深度估计可以视为建立在不同假设上,具有不同的分布,即使在一些情况下某些假设不再成立,依据其它假设仍然可以获得相对可靠的估计。此外,我们设计了一个与深度解算系统相配合的深度选择和融合机制,以去除多样化估计中的异常值,并将剩余估计融合成一个更可靠鲁棒的值。该方案只以图像作为输入,不依赖特殊的网络设计。在被广泛使用的Benchmark KITTI 3D object detection的“Car”类别上,该方案相较于现有最佳方法有20.96%的精度提升,对另外两个类别“Cyclist”和“Pedestrain”的检测分别排名第一和第二,且能够实时运行。
2.(Oral) ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation
现有的文本导向的图像编辑 (text-guided image manipulation) 方法只能修改图像的外观或在简单的虚拟场景中编辑一些实体,这与实际应用相去甚远。在这项工作中,我们研究了在现实场景中实体级别的文本导向的图像编辑的新任务。该任务提出了三个基本要求,(1)对实体进行编辑以与文本描述一致,(2) 保留与文本描述无关的区域,以及 (3) 将编辑后的实体自然地融合到图像中。为此,我们提出了一种基于Transformer结构的基于两阶段图像合成方法的新框架ManiTrans,它不仅可以编辑实体的外观,还可以生成与文本描述相对应的结构不同的新实体。我们的框架包含一个语义对齐模块来定位要编辑的图像区域,以及一个语义损失函数来帮助对齐视觉和语言之间的关系。我们在包括CUB、Oxford 和 COCO 数据集在内的真实数据集上进行了充分的实验,以验证我们的方法可以区分文本描述相关和不相关区域;并且与基线方法相比,我们的方法可以实现更精确和灵活的编辑。
3.Prompt Distribution Learning
我们提出提示分布学习(prompt distribution learning)来有效地适应预训练的视觉语言模型以解决下游的识别任务。我们的方法不仅能够从少量训练样本中学习到低偏差的提示,同时还学习了多样性提示的分布以应对多变的视觉信息。这使得我们的方法能够提供高质量的任务相关描述来提升图像识别性能。通过分析提示在文本编码器输入和输出端的特征分布,我们发现输出端的特征可以通过简单的高斯分布来建模,我们也提出了一个代理目标函数以进行有效的训练。在多个下游数据集上进行的广泛实验表明,我们的方法显著地优于现有方法。在每个类别只提供1个样本的设置下(1-shot),我们的方法相比人工设计的提示提高了9.1%的平均识别精度。
4.ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
现有的视觉语言导航智能体通常直接地学习指令-路径对数据,这种学习方式无法充分地挖掘多模态数据里的动作级的对齐知识。本文提出一种新的视觉语言导航方法,通过引入模态对齐的动作提示来促使智能体能够显式学习动作级的对齐知识。一个动作提示被定义为一对图像子提示和文本子提示,前者是一个单视角观察,后者是一个动作短语,例如“穿过椅子”。导航过程中,智能体从动作提示库检索指令相关的动作提示集合并获取提示特征。提示特征和指令特征进行联结并输入到多层Transformer用于行为决策。我们借助CLIP模型来收集高质量的动作提示构建动作提示库。我们设计模态对齐损失函数和序贯一致性损失函数来增强配对的动作提示之间的对齐并且强迫智能体序贯地关注到有用的提示。本方法在两个流行的视觉语言导航数据集R2R和RxR上取得最优性能。
5.ONCE-3DLanes: Building Monocular 3D Lane Detection
本文构建并发布了第一个真实驾驶场景下的三维车道线数据集ONCE-3DLanes。由于驾驶场景中路面不平坦的原因,图像上的二维车道线检测方法在自动驾驶中的规划和控制任务上性能较差。因此已有许多研究开始探讨三维车道线检测的应用和可行性。然而现有的三维车道线数据集要么是真实场景但未发布的,要么是在仿真环境中合成的,严重阻碍了改领域的发展。我们通过利用图像像素和激光点云的显式对应关系,设计了一个三维车道线数据集的构建方法。通过半自动标注的二维车道线标签,生成了211K 个道路场景下的高质量的三维车道线标注。此外,我们还提出了一个无需外参、无需锚框的具备空间感知能力的单目三维车道线检测方法SALAD。为了促进单目三维车道检测的研究,我们对数据集进行了基准测试,并提供了一种泛化能力更强的评价指标,对现有的方法和本文提出的方法进行了大量对比实验,证明了我们提出的方法的优越性。我们的数据和代码公开在https://once-3dlanes.github.io。
6.Point2Seq: Detecting 3D Objects as Sequences
基于激光雷达的3D目标检测由于它在3D目标检测精度上的优势在自动驾驶感知算法中占有着重要的位置。目前自动驾驶3D目标检测主要分为基于anchor与基于center的两种方法。这两种方法都基于人工设计的复杂的目标匹配与后处理机制,同时在bev特征上的降采样又引入了离散错误;为了解决这个不匹配的问题,在检测过程中引入二阶段预测方法,增加了太多的运算量,极大影响模型训练与推理速度。为此,我们提出了一种单阶段的3D目标检测算法,将3D目标的不同特征(如中心位置、角度、尺寸、类别)看作一个序列预测问题,每次预测完一个特征后,就根据新预测的特征更新“预测框”的位置,并在新“预测框”上采样获得更加准确的特征合并入已有的特征用于下一个特征的预测过程,解决离散错误的问题。在Waymo与ONCE数据集上的测试结果显示,在同等条件下,我们提出的point2seq结构相比于已有基于anchor与center的模型均有显著的提升。
7.UCC: Uncertainty guided Cross-head Co-training for Semi-Supervised Semantic Segmentation
本研究以深度神经网络为依托,面向半监督语义分割,针对现有文献对半监督语义分割中伪标签中噪声高、类别不平衡以及标注数据和无标注数据中Domain GAP的问题,文章提出了Cross-head Co-Training的方法,考虑到了如何有效的利用一致性约束和self-training的方式联合训练对任务进行提升;利用Uncertainty过滤伪标签中的噪声,降低噪声对模型的影响。该方法具有较好的域适应、跨域能力,标注数据和无标柱数据可以来自于不同分布的域,这一性质对深度神经网络的鲁棒性和分割结果的稳定性起到了重要作用。在训练过程中,利用Cross-head丰富特征提高其通用能力,有效的利用不同head之间输出来计算伪标签的Uncertainty,进而对其进行Pixel Level的加权。本文将该半监督语义分割框架应用到CityScapes、VOC2012数据集中,在投稿时均取得了各个setting的SOTA。
8.Uformer: A General U-Shaped Transformer for Image Restoration
我们提出了Uformer,一种有效的基于Transformer的图像恢复框架。我们使用Transformer模块构建了一个分层的编码器-解码器网络。在Uformer中,有两个新的核心设计:(1)局部增强窗口(LeWin)Transformer模块,它执行基于非重叠窗口的自注意力而不是全局自注意力,在显著降低高分辨率特征图的计算复杂度的同时捕获局部上下文。(2)可学习的多尺度恢复调制器,以多尺度空间偏差的形式来调整Uformer解码器中的特征,该调制器展示了为各种图像恢复任务恢复细节的卓越能力,同时引入的额外参数和计算成本忽略不计。在这两个设计的支持下,Uformer具有捕获局部和全局依赖以进行图像恢复的强大能力。我们对几个典型的图像恢复任务进行了广泛的实验,包括图像去噪、去运动模糊、去散焦模糊和去雨。与其它SOTA算法相比,我们的Uformer简单有效,可实现更优越或相当的性能。
9.Contextual Outpainting with Object-Level Contrastive Learning
CTOut探索了图像外插(Image Outpainting)的一个变种问题,情景化外插(Contextual Outpainting),目标是从图片的前景内容推断其合理的背景内容。由于前后背景之间的纹理信息常常不一致,现有图像补全方法的冗余性假设并不成立,因而,这一问题的难点在于对图像的前景和背景内容语义关系的建模。为此,我们设计了一个两阶段的生成对抗网络CTO-GAN,引入语义分割图(Semantic Segmentation Map)作为桥梁,通过实例间对比学习(Object-Level Contrastive Learning)来建模前景物体和背景内容的语义相关性。进一步地,我们增强了鉴别器的能力,使之更关注背景的生成质量。在COCO-Stuff数据集上的实验表明,我们提出的模型可以依据前景物体生成合理且多样的背景内容,在智能创作、创意编辑等方面展现了应用前景。
10.CroMo: Cross-Modal Learning for Monocular Depth Estimation
近年来基于学习的深度估计在不同方向都取得了进展,包括利用单目视频的自监督学习和高精度的有监督学习。通过结合与监督信息互补的多模态信号可以进一步增强模型的性能和稳定性。本文中,我们系统地探究了不同传感器和模态带来的影响,并设计了相应的模型训练策略。本文提出了一种新颖的基于单目偏振图片的深度估计方法,并结合多模态信号进行训练和评估。我们通过可微解析模型的逆变换来将场景空间几何结构和偏振和ToF信号联系起来,以进行自监督和跨模态信息学习。因为缺少相应的多模态深度估计数据,我们制作了一个多模态相机装置并收集了CroMo数据库,是现有的第一个同时包括同步的双目偏振图像,i-ToF信号和结构光视频序列。我们已经在学术界公开了CroMo数据集来帮助相关领域的进一步探索。自采视频场景上的大量的实验表明,提出的方法在定性定量评估上都要优于现有的SOTA方法。项目详见:https://cromo-data.github.io/
11.PILC: Practical Image Lossless Compression with an End-to-end GPU Oriented Neural Framework
近年来,基于生成模型的AI无损压缩实现了远超传统算法的压缩率,但由于计算量过大,即使在最高端的AI芯片上,吞吐率往往只有1 MB/s,这成为影响AI压缩商用的主要瓶颈。本工作提出了一种高效的自回归与自编码结合的网络架构,并设计了一种AI压缩友好的熵编码算法,使其在V100上的压缩、解压吞吐率达到200 MB/s,与此前最快AI压缩算法L3C相比,在压缩率相近的情况下,速度提升15倍。为实现此吞吐率,本文还提出了自回归并行解压、间接编码、分布近似等多种技术,并对自研的编码器进行了GPU适配,使得整个框架均运行在GPU上,为AI无损压缩的商业化提供了新的思路。
12.SHVC: Split Hierarchical Variational Compression
变分自编码器(VAEs)作为一种可以估计概率密度的深度生成模型,最近在图片数据的无损压缩任务上展示出了较大的突破。得益于反编码机制(bits-back coding)的使能,变分自编码器能够应用于无损压缩,并且在多个数据集上达到有竞争力的压缩比。但是,目前基于变分自编码器的无损压缩方案还受限于编码的实用性以及编码的压缩比两个方面,难以实现大规模应用。具体来说,一方面虽然压缩比已经远超传统算法,但是相较于基于流模型的方案还稍显不足;另一方面,反编码机制所必须的初始比特给单数据点压缩和多数据点并行压缩带来了一定挑战。为了解决上述两方面的挑战,我们的工作SHVC做出了以下两点创新。第一,我们提出了一种基于自回归模型的先验分布,即自回归子像素卷积,其可以被看作是一种连接逐像素自回归模型和全分解概率模型的推广。第二,我们提出了新的反编码框架,自回归初始比特,其能够使能高效并行压缩,实现业界首次对额外初始比特及其附带缺点的规避。实验证明,SHVC可以在公开数据集特别是高清大图上实现领先的压缩效果,并且比同类VAE模型少100倍的参数量。
诺亚CVPR 2022论文列表
[1] (Oral) Diversity Matters: Fully Exploiting Depth Clues for Reliable Monocular 3D Object Detection.[2] (Oral) ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise Semantic Alignment and Generation.[3] (Oral) OoD-Bench: Quantifying and Understanding Two Dimensions of Out-of-Distribution Generalization.[4] (Oral) An Image Patch Is a Wave: Phase-Aware Vision MLP.[5] Prompt Distribution Learning.[6] Uformer: A General U-Shaped Transformer for Image Restoration.[7] ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts.[8] Neural Architecture Search with Representation Mutual Information.[9] IntraQ: Learning Synthetic Images with Intra-Class Heterogeneity for Zero-Shot Network Quantization.[10] ONCE-3DLanes: Building Monocular 3D Lane Detection.[11] Point2Seq: Detecting 3D Objects as Sequences.[12] Continual Object Detection via Prototypical Task Correlation Guided Gating Mechanism.[13] Arch-Graph: Acyclic Architecture Relation Predictor for Task-Transferable Neural Architecture Search.[14] Semi-Supervised Object Detection via Multi-instance Alignment with Global Class Prototypes.[15] PILC: Practical Image Lossless Compression with an End-to-end GPU Oriented Neural Framework.[16] Split Hierarchal Variational Compression.[17] Contextual Outpainting with Object-level Contrastive Learning.[18] UCC: Uncertainty guided Cross-head Co-training for Semi-Supervised Semantic Segmentation.[19] CroMo: Cross-Modal Learning for Monocular Depth Estimation.[20] Long-tail Recognition via Compositional Knowledge Transfer.[21] A Versatile Multi-View Framework for LiDAR-based 3D Object Detection with Guidance from Panoptic Segmentation.[22] Channel Balancing for Accurate Quantization of Winograd Convolutions.[23] Data-Free Network Compression via Parametric Non-uniform Mixed Precision Quantization.[24] Patch Slimming for Efficient Vision Transformers.[25] Hire-MLP: Vision MLP via Hierarchical Rearrangement.[26] CMT: Convolutional Neural Networks Meet Vision Transformers.[27] Instance-Aware Dynamic Neural Network Quantization.[28] Multimodal Token Fusion for Vision Transformers.[29] Brain-inspired Multilayer Perceptron with Spiking Neurons.[30] AutoLoss-GMS: Searching Generalized Margin-Based Softmax Loss Function for Person Re-Identification.[31] Source-Free Domain Adaptation via Distribution Estimation.[32] Out-of-distribution Generalization with Causal Invariant Transformations.[33] Federated Learning with Position-Aware Neurons.[34] MLSLT: Towards Multilingual Sign Language Translation.[35] UTC: A Unified Transformer with Inter-Task Contrastive Learning.
转自:arXiv每日学术速递
如有侵权,请联系本站删除!