投稿问答最小化  关闭

万维书刊APP下载

几何单目视觉测距研究综述

2024/1/15 14:58:07  阅读:40 发布者:

 要:针对几何单目视觉测距领域缺乏完整分类框架及最新进展相关的问题,该文通过关键字搜索的方法收集国内外相关文献并进行了梳理,将基于几何的单目视觉测距分为基于二维目标检测测距和基于三维目标检测测距两类,并将测距模型细分为基于数据回归建模、基于逆透视变换、基于成像几何模型3类,总结了经典以及改进的模型方法,分析了其优势及不足。该文提供了一个结构化的分类框架,并从不同的方向对各种方法进行定性分析,同时展望了未来单目视觉测距的研究趋势,为相关领域研究人员提供参考与帮助。

0 引言

距离测量一直是各个研究领域关注的重点问题。医学成像技术使用距离测量生成精确的三维图像;建筑测量行业通过距离测量精准地确定建筑物的高度和宽度;工业自动化利用距离传感器识别并测量生产线上的产品。激光、超声波、雷达、红外线、视觉等测距方法是现在主流的距离测量方法,但是大部分传感器重量大且价格昂贵,相较之下视觉测距只需要普通的摄像机就可以完成任务,具有成本低、非接触式测量等优点,成为近几年的研究热点。计算机视觉技术的兴起为视觉测距开拓了新的思路,根据摄像头的数量通常分为两类:双目立体视觉测距和单目视觉测距。双目立体视觉测距通过计算左右两个摄像机的成像差异来获得物体的深度信息,具有较高的测距精度,但是由于其多个摄像头标定以及立体图像匹配过程复杂、计算量大,难以达到实时性的要求;而单目视觉测距成本低廉、模型结构简单,图像处理速度更快,可以满足实时性的要求,在高级驾驶辅助系统(advanced driving assistance systemADAS)等领域中具有广阔的应用前景。

现有基于几何的单目视觉测距综述[1-2]只对各种测量方法进行了简单的介绍,并没有归纳总结各种测距模型的改进以及最新的研究进展。本文通过对近些年的国内外文献梳理分析,将基于几何的单目视觉测距方法分为两大类:基于二维(2-Dimensional2D)目标检测测距和基于三维(3-Dimensional3D)目标检测测距。着重展开基于2D目标检测下的测距方法,分析现存方法的优势与不足,简要介绍了单目深度估计的相关内容,并对未来进行了展望。文章中参考的文献以车距测量为主,但方法与思路具有泛化性,可以迁移至障碍物测距或者是其他特定目标测距中,为后续学者的研究提供参考。

1 基于2D目标检测

对目标物的测距通常分为两步,包括目标检测以及检测后的距离估计。目标检测可以分为2D目标检测和3D目标检测,2D目标检测指使用加速稳健特征(speeded up robust featuresSURF)算法[3]、可变形部件模型[4]deformable part modelDPM)、深度学习等方法识别出目标物类别并生成二维包围框,通过利用包围框的坐标信息联合其他辅助信息进行距离测量。基于2D目标检测的测距方法又可以细分为:基于数据回归建模、基于逆透视变换、基于成像几何模型这三种方法。

1.1 基于数据回归建模

数据回归是一种统计学方法,用于建立变量之间的关系模型。回归分析的基本原理是寻找最佳拟合曲线或平面,以描述自变量和因变量之间的关系,常见的回归方法包括线性回归、多项式回归、非线性回归等。回归模型的建立涉及参数估计的过程,常使用最小二乘法来使得观测值与预测值的残差平方和最小。

文献[5]借鉴数据回归的理论思想创新性地提出了一种“先测距再建模”的逆向研究思路,即先获取样本点的距离与像平面之间的对应关系,再通过数据拟合函数进行回归分析,以此来预测模型中未知变量的值,其基本原理如图1所示。

除了利用车辆本身的信息之外,也有部分学者使用其余先验信息来进行回归建模。文献[11]将高速公路上每段车道线的端点与本车的实际距离和其在像素坐标系下的纵坐标值建立起函数拟合模型,通过测量得到的像素坐标系值反推得到车距;文献[12-14]都采用棋盘格参考纸作为辅助信息,选取部分角点精确标定,并以角点的行像素值或者是点之间的相互距离与真实距离的比例关系构建数据回归模型;文献[15]以道路消失点与本车的真实距离和其在像素坐标系下的距离比例为回归变量进行建模。文献[16]以视频流作为数据源,通过实验分析发现固定高度障碍物在像素坐标系V轴的像素差与移动的距离成正比关系,因此计算多个关键点在视频前后帧像素差的平均值,以此参数作为回归变量求得障碍物距离。

基于数学回归建模的测距方法通过函数拟合隐含的消除了成像系统误差和镜头畸变等带来的影响[5],不用进行摄像头的内外参数标定,同时适用于结构化道路和非结构化道路;但是在建模前需要测量标定大量的实验数据,数据的质量与数量直接影响了最后的测距结果精度。拟合出来的函数模型也只适用于当前特定环境下的测量,当环境与设备条件发生改变时则不再适用,泛化性不强。

1.2 基于逆透视变换

摄像机的成像过程即透视投影,是从三维空间到二维空间的几何变换过程,而距离估计则是从二维空间转换到三维空间的过程,即逆透视投影。摄像机在成像时所有的平行直线会因为透视投影原理在图像上汇聚到一点,物体在图像中的形状和大小会发生扭曲,而逆透视变换[17]inverse perspective mappingIPM)则是将原始图像转换成鸟瞰图的视角以恢复道路平面信息,消除透视效应,从而可以通过测量物体在图像上的像素大小来推测其实际距离。逆透视变换法测距就是以转换后得到的IPM图计算与目标物的距离,其原理如图2所示。

基础的逆透视变换测距法没有考虑摄像机姿态角的补偿问题,因此在实际应用中需要对模型进行修正。文献[18]利用道路消失点推算出俯仰角并补偿到动态逆透视变换方程中;文献[19]同样加入俯仰角改正原始的逆透视变换公式,并通过数据回归建模拟合出原始图像和IPM图像像素坐标的关系;文献[20]将高速公路上车道线宽度这个先验信息加入逆透视变换模型中进行修正,以此得到XY方向上的分量。文献[21-23]都是采用基于IPM的测距方法,差异是选用的目标检测方法不同。文献[21-22]去除了多余的道路信息,而文献[23]则是将原始图像映射到色相、饱和度、明度(hue saturation valueHSV)颜色空间进行检测。

逆透视变换法将斜视图转换为俯视图像,能够消除透视畸变、还原路面本身信息,提高水平距离测量的准确性,并且不受场景的限制,可用于多种环境。但该方法必须以路面平坦为条件,在变换过程中往往会引入新的畸变[24],且计算量大难以满足实时性的需求。

1.3 基于成像几何模型

成像几何模型测距是现在最常用的测距方法之一,其中针孔相机模型是最基础的视觉测量模型。针孔相机模型假设相机与目标物体之间存在一个小孔,通过这个小孔将光线投射在成像平面上形成图像,本质是将三维空间中的点映射到二维平面上[25]。文献[26]依据神经网络检测得到的前方车辆车牌目标,采用小孔成像原理构建测距模型,其中车牌实际宽度已知,车牌像素宽度可检测得知,根据测距模型易得出所求距离。

相较于过于理想化的针孔相机模型,透视相机模型则是更为常用的一种成像几何模型。该模型考虑了透视效果,能够更好地模拟真实场景,依据摄像机内外参数标定能精确地计算出物体的距离。根据是否需要摄像机水平/垂直视场角构建方程式又可以把透视相机模型分为反转透视投影测距和简单相似三角形测距。

1.3.1 反转透视投影测距

反转透视投影测距是直接将摄像机的成像模型进行简化,依据摄像机的视场角范围建立目标物在世界坐标系和像素坐标系下的映射关系,并通过该映射关系分别计算目标物与摄像机之间的X轴和Y轴分量,联合得到所求距离。

文献[31]以车道线平行作为约束条件计算出当前摄像机的俯仰角,将其带入测距方程中求得距离;文献[32]在双摄像头拍摄视频的非重合区域采用反转透视模型进行测距。

简化相机模型的反转透视投影测距法以摄像机为中心、前进方向为轴向建立路面三维坐标系与像素坐标系的映射关系。该模型考虑了偏航角与俯仰角对测距结果的影响,能够更精准地估算出与目标物的距离,且不依赖道路信息,同时适用于结构化道路与非结构化道路。但是该方法需要提前进行摄像机内外参数的标定,整个计算过程复杂耗时,不利于实时测量。

1.3.2 简单相似三角形测距

简单相似三角形测距是更加简化的摄像机成像模型,其结构简单、参数量小,具有更好的扩展性和可移植性。最基础的相似三角形测距模型类似于小孔成像模型,但其理想化的假设条件在实际场景中并不适用,因此学者们构建了含有俯仰角与偏航角的相似三角形测距模型[33-36],其原理如图5所示。

相似三角形测距法需要已知摄像机的姿态角以及安装高度,即需要进行摄像机的参数标定。文献[37]通过陀螺仪标定得到俯仰角和偏航角;文献[38]根据文献[39]提出的方法,通过标定3个样本点将非线性问题转换为线性方程,以此求得摄像机参数;文献[40]提出一种四点标定法,通过获取四个标定点到相机的横向距离以及其像素坐标联立方程式解算摄像机内外参数,避免了传统相机标定法的繁琐步骤;文献[41]针对传统相似三角形测距模型只考虑了俯仰角的修正而忽略了翻滚角的问题,提出了修正翻滚角的几何测距模型。翻滚角主要影响了目标点在像素坐标系下的坐标,修正后能够更精确的获得目标点的信息从而减少误差。

1.3.3 添加辅助信息的相似三角形测距

由于相似三角形测距模型主要依靠摄像机标定参数与目标检测框信息建立映射关系,多数情况采用了理想化条件假设,如不考虑镜头畸变等,因此部分学者通过添加辅助信息来提高模型的精度。文献[42]预先知道障碍物的高度并假设两种情况:当障碍物目标正位于图像中心和不位于图像中心时分别建立相似三角形测距模型,但是没有考虑水平方向上的偏差问题,不具有泛化性。在车距测量中,车辆本身以及道路上所包含的信息可以作为很好的先验知识,文献[43]依据目标检测得到的车辆矩形框信息,结合已知的实际交通标志牌宽度联合构建车距测量模型;文献[44]在近距离处采用车牌检测测距,在远距离处通过提取图像中车底间隙宽度结合真实车底间隙宽度构建测距模型;文献[45]采用基于车辆落地点和基于车牌这两种测距方法的协同测距,解决了在近距离处受摄像机可视范围与自身车辆遮挡造成的前车落地点计算偏差和在远距离处车牌检测不清晰的问题;文献[46]考虑到不同车距测量方法的优缺点,同时将基于车辆检测框位置、基于车辆宽度、基于车道线、基于车牌宽度这四种测距方法融合使用,通过测试分析每种测距方法的误差赋予不同的权重,实现多参考信息的融合测距。

1.3.4 基于道路消失点的相似三角形测距

在视野范围内道路的延长线最终汇聚到一个点上,这个点称为道路消失点,通过检测图像中的消失点可以应用于测距与定位。文献[47]通过大量实验分析后发现摄像机俯仰角的变化会引起较大的车距测量误差,因此结合车道线消失点和近视场特征点推导出全新的相似三角形测距模型,即基于道路消失点的几何测距模型,避免了对俯仰角的测量。

由此可见只需要近视点到摄像机的纵向距离这一个先验信息就可以获得车距,避免了对摄像机所有内外参数标定的复杂过程,减少了所需的参数[48]。文献[49]将文献[47]提出的测距模型进行了简化,把摄像头的高度作为需要输入的外部参数,该外部参数更容易测量得到,适用于基于智能手机的车辆测距;文献[50]针对文献[49]的测距模型未考虑斜坡路面的问题,在原有的基础上添加车牌检测约束,进行误差补偿;文献[51]根据道路消失点计算出俯仰角与偏航角,并融合基于车辆宽度的几何测距模型形成多维参考信息的融合测距算法,提高测距算法的鲁棒性。汽车在行进过程中的颠簸状态会使标定好的姿态角发生变化,斜坡路面也会导致消失点偏移,因此需要对这些参数进行修正。文献[52-54]通过检测道路消失点与其理想位置(即图像中心)的偏移重新推算出姿态角;文献[55]使用斜坡路面上检测得到的道路消失点计算摄像机俯仰角与路面坡度角的总和,减去标定得到的俯仰角即为路面坡度角;文献[56]将俯仰角、偏航角和翻滚角的变化引入摄像机外参数矩阵,以修正得到的参数矩阵重新计算消失线位置以此得到修正距离。

1.3.5 基于投影面积的相似三角形测距

以上相似三角形测距方法都是通过映射点与点之间的关系构建测距模型,而文献[57]提出了一种“面积-距离”测距模型。首先从目标检测网络中提取车辆的位置,然后将车辆的位置发送到车辆分类网络和实例分割网络,得到车辆的类型和掩码值,接着使用图像中车辆的掩码值与真实车辆后部面积构建测距模型。文献[58]在文献[57]的基础上进行了改进,使用角度回归网络得到目标的姿态角信息,使其能够更好地估计车辆的偏移,提高距离估计系统的鲁棒性。除此之外还设计了二维基向量几何模型还原了车辆的后部区域,其测距原理如图7所示。

1.4 不同测距模型的对比

由上文分析归纳可得,基于成像几何模型的测距法可以分为依据摄像机视场角的反转透视投影测距、简单相似三角形测距、添加辅助信息的相似三角形测距、基于道路消失点的相似三角形测距和基于投影面积的相似三角形测距这五种。所有基于几何的单目视觉测距方法特性总结归纳如表1所示。

在测距实验中,常使用绝对误差与相对误差来描述最后的距离测量精度,由于每一种方法的实验条件与实验数据皆不相同,因此本文从是否测量摄像机姿态角、是否需要辅助信息、适用场景、测试对象以及不同的真实距离区间测量结果对不同的方法进行比较,其中真实距离区间分别为0~30 m30~100 m100~500 m。典型算法代表的性能对比如表2所示。

2 基于3D目标检测

2D目标检测得到的包围框可以大致反映目标物的真实情况,但当目标物不在视野的正前方时会产生偏差,如图8所示。其中为2D目标检测下的车辆包围框下边沿中点,为真实车辆包围框的下边沿中点,从图中可以明显看出实际位置与预测的位置存在偏差,当用预测的位置作为特征点输入测距模型中时必然会影响结果的精度。但是单目视觉3D检测在缺乏深度测量或强先验的情况下,不能提供足够的信息来准确估计场景的3D布局[59],因此相关研究使用2D目标检测得到的包围框信息作为基础来还原真实的三维包围框[60]

文献[61]使用2D目标检测算法检测出车辆关键组件:尾部边框、侧边前轮与侧边后轮,如图8c)所示,提取它们的关键点坐标构建线性方程还原车辆三维包围框,以此获取车辆尾部下边沿中点信息,再使用逆透视变换模型得到距离;文献[62-63]采用了文献[61]同样的三维包围框还原方法,不同点在于使用反转透视投影模型分别计算X轴和Y轴上的分量;文献[64]针对结合车辆下边沿中心点坐标的测距方法在远距离效果差、鲁棒性较弱等问题,利用3D检测优势建立“面积-距离”测距模型,比文献[57-58]提出的投影面积关系更加准确。

现阶段基于3D目标检测的测距方法研究尚不充分,但通过分析可以发现此类方法与2D目标检测下的测距方法相差不大,唯一的不同在于是否还原了目标物的真实三维信息。显而易见,基于3D目标检测的测距方法精度更高,距离估计误差更小。

3 单目深度估计

单目视觉测距是指利用单个摄像机拍摄场景,并通过图像处理技术来估计物体与摄像机之间的距离;而单目深度估计则是通过计算机视觉和机器学习技术来分析和处理图像,以推断每个像素点的深度信息。假设我们有一张2D

I,深度估计就是构建一个函数F来求取整张

对应的深度d,即。本章节先阐述了深度估计的发展,再归纳了常用的数据集以及知名开源算法。

3.1 单目深度估计的发展

单目深度估计自提出以来就成为计算机视觉领域的一个热门课题。在早期,单目深度估计典型的方法有从阴影中恢复形状[65]shape from shadingSFS),利用物体表面变化的明暗程度即阴影来恢复表面形状;从对焦、离焦中获取深度[66-67]depth from focus/defocusDFF/DFD),利用图像中像素的对焦/离焦信息结合摄像机标定参数来计算图像深度,其假设原理是图像中对焦处景物最为清晰,越远离焦点处越模糊。但这些传统的方法都需要对场景附加额外假设,并且不适用于大景深场景,因此学者们尝试用机器学习的方法将单个像素的深度估计问题转换为随机场下的概率学习问题。例如文献[68-69]使用马尔可夫随机场(markov random fieldMRF)来建模优化深度图,文献[70]使用直接对后验概率建模的条件随机场(conditional random fieldCRF)来估计深度。随着图形处理器(graphics processing unitGPU)计算能力的发展和大规模

数据的涌入,深度学习的出现使深度估计应用产生了新的机遇,在此基础下又可以把基于深度学习的单目估计分为有监督学习、无监督学习和半监督学习。

有监督学习的方法需要真实深度值作为标签,使用卷积神经网络直接建立像素与深度值之间的映射。文献[71]最早将卷积神经网络(convolutional neural networksCNN)用于深度估计,利用多尺度的思想,使用全局粗略尺度网络对全局进行粗略估计;使用局部精细尺度网络对全局进行优化,并提出了一种特殊的尺度不变损失来解释尺度相关的误差。实验中所用数据集均是原始图像和其对应的深度图像,整体网络结构如图9所示。在此基础上又有不少学者从改进网络结构[72]、结合其他辅助信息[73-74]、改进损失函数[75]等方向对深度估计网络进行改进。

虽然有监督学习的方法取得了很好的结果,但是含有深度值的标签并不容易获取,因此不少学者使用无监督学习来进行深度估计。该方法无需大量的距离标签深度图,通常使用视频前后帧的图像或是立体像对来重建距离关系,文献[76]所提出的方法也是这类方法的代表作,网络框架如图10所示。

将左视图作为输入通过卷积神经网络得到相应的视差图,再将视差图与右视图通过逆向映射重建出左视图,预测出来的左视图与原始左视图的的差异作为监督信号引导训练深度估计网络。文献[77]在文献[76]的基础上同时预测左右视图的视差图来进行重建,尽管此类方法在输入时使用双目图像,但是测试时仅使用单目图像就可获得预测结果。文献[78-79]则是使用了视频前后帧图像作为输入,并同时设计了位姿估计网络和深度估计网络,联合两个网络对目标视图进行重建。网络整体结构如图11所示,此类方法主要使用运动恢复结构(structure from motionSfM)重建来学习图像中的深度信息。

由于有监督学习获取训练样本成本过高,无监督学习缺乏尺度信息精度难以保证,因此有学者结合两者的优势提出了半监督学习的方法。如文献[80]在文献[77]的基础上将稀疏深度图作为监督信号与无监督学习进行融合,有监督学习的损失函数鼓励预测的深度图与标签深度图一致,无监督学习的损失函数鼓励重建图与原始图一致,以此提高模型的估计能力。目前半监督学习的深度估计方法研究尚不充分,标签数据与未标记数据可能来自不同的环境导致模型难以泛化,因此该方法在未来还有很大的发展空间。

3.2 常用深度数据集及开源算法

根据不同的特点,深度估计的数据集可以划分为不同的类型,常用深度数据集特性归纳总结如表3所示。按照训练方式的不同,部分知名开源算法归纳如表4所示。

4 结束语

单目视觉测距无需额外的传感器,仅利用常规的单摄像头测量,只需要对图像进行处理就可获得距离,具有成本低、实时性好等优点,在移动端导航、自动驾驶、智能化生产等领域具有广阔的应用前景。本文对相关研究进行梳理和分析将单目视觉测距分为基于数据回归建模、基于逆透视变换、基于成像几何模型三种方法,其总结如下:

1)基于数据回归建模。该方法通过构建像素点坐标与实际距离的映射关系来对待测目标的距离进行回归预测,是一种“先建模再测距”的逆向研究思路,针对不同的实际场景可以改变函数关系中的变量以此满足测距需求。这种方法通过函数拟合隐含的消除了成像系统误差和镜头畸变等带来的影响,不涉及摄像头内外参数的标定,不依赖于道路条件的约束,在特定环境下精度高。但是数据回归存在固有缺陷,需要测量标定大量的高质量数据才能进行拟合建模,当环境与设备条件发生改变时模型不再适用,因此泛化性不强。

2)基于逆透视变换。该方法的原理是将拍摄得到的图像通过逆透视变换转换为鸟瞰图,以此消除三维空间映射到二维空间时产生的透视效应,通过转换得到的鸟瞰图与原始图像建立线性关系以此求得距离。此方法能够消除透视畸变、还原路面本身信息,减小图像中各个点的大小差异,使水平距离测量结果更加准确。但是该方法必须以路面平坦为条件,同时不应存在太大的弯道,否则俯视图难以还原。在图像变换过程中往往还会引入新的畸变,且转换过程使计算复杂程度增加,花费大量的时间。

3)基于成像几何模型。这种方法通过化简摄像机成像模型来构建三维坐标到像素坐标的映射关系,并使用数学几何原理建立测距模型,是应用最广泛的一种测距方法。该方法拥有结构简单、计算量小等优点,可以引入各种辅助信息来简化改进测距模型,可扩展性高,泛化性强,具有一定的发展前景。唯一的不足是该方法对摄像机的姿态角敏感,需要提前进行摄像机参数的标定并及时更正姿态角,不能实现测距的全自动化。

基于以上分析,展望未来单目测距发展趋势如下:

1)目标物的检测与定位是影响测距精度的关键问题。由前文可知,3D目标检测能够还原目标物的真实三维包围框,能够消除因侧面拍摄产生的特征点提取误差,因此可以结合3D目标检测构建更为精细化的测距模型,提高结果精度。

2)为了使测距模型能够自适应多种环境,如何提升目标检测网络在恶劣天气环境中的泛化性能是未来面临的一个重要挑战。可以考虑引入多尺度特征表示、进行光照补偿以及采集多样化的训练数据补充数据集等方法。由于带标签的真实数据难以获取,可以采用无监督或者是半监督的方法降低标注难度。

3)当前研究大多采用平行直线道路的假设,在弯道以及斜坡路段精确度降低,因此提升测距模型的全局适应能力是目前研究的一大方向。当具备先验信息时,可以通过感知道路的宽窄以及斜率分析路面情况;当没有已知信息时,可以通过运动目标的位姿变换进行路段分析,道路消失点的变化也可以作为判断路面是否倾斜的重要依据。根据不同情况重新建立模型,预先进行场景判断并选择对应的测距方法,可以提升整体的适应能力。

4)成像几何测距模型不需要采集大量数据、不需要还原俯视图,与另外两种测距模型相比具有灵活度高、过程简单、计算量小的优点,拥有更好的发展前景。然而摄像机参数的预先标定使测距过程不够自动化,因此研究出一种全自动化的测距方法是未来的发展趋势。摄像机自标定法仅利用图像中特定点在变化环境中的对应关系就可得到参数,在一定程度上可以提升测距模型的自动化程度,但如何提高自标定法的精度是亟待解决的问题。

5)基于数据回归建模、基于逆透视变换以及基于成像几何模型三类都属于“先检测后测距”的两阶段测距方法,而单目深度估计的发展使“端到端”的测距方式变为可能,仅输入一张原始图像就可以获得整张图像的深度信息,不受限于特定场景,不依赖于约束条件,因此将深度估计网络与测距模型相结合也是一种新的研究思路。但是深度估计网络结构复杂、含距离信息的标签难以获取、整张图像像素的深度信息输出冗余,如何改进网络结构、解决标签问题、获取目标区域的信息成为提高该测距方法精度以及场景泛化能力的关键问题。

作者简介:赵江洪(1976—),女,新疆阜康人,教授,博士,主要研究方向为三维激光雷达数据处理。

E-mailzhaojiangh@bucea.edu.cn

通信作者:刘茈菱 硕士研究生 E-mail940568635@qq.com

引文格式:赵江洪,刘茈菱,杨甲,等.几何单目视觉测距研究综述[J] .测绘科学,2023,48(9):49-65

转自:“测绘学术资讯”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com