投稿问答最小化  关闭

万维书刊APP下载

一个近岸海域监测目标识别模型

2023/9/26 16:10:59  阅读:37 发布者:

Re-YOLOX: 利用Resizer改进的YOLOX近岸海域监测目标识别模型

王振华1,2, 谭智联1,2, 李静1,2, 常英立1

1.上海海洋大学信息学院,上海 201306

2.自然资源部海洋环境探测技术与应用重点实验室,广州 510000

摘要:

近岸海域监测包括自然环境监测和人类活动监测,其监测目标的高精准识别对海洋经济的健康发展、海洋环境的生态保护以及海洋防灾减灾等都有重要的作用。近岸海域监测目标具有多类型、多尺寸和不确定性等特征,现有识别模型在对近岸海域监测目标识别时,存在精度和效率欠佳、小目标漏检现象严重等问题。针对上述问题,利用可学习的图像调整模型(Resizer model)改进YOLOX,提出了面向近岸海域监测目标的识别模型(Re-YOLOX),包括: ①利用Resizer model加强模型训练,提升模型的特征学习能力和表达能力,提高模型的召回率; ②改进YOLOX的特征金字塔融合结构,减少小目标识别的漏检问题。用无人机监测的近岸海域视频数据作数据集,以车辆、船只和堆砌物为监测目标,将提出的Re-YOLOX模型与CenterNet,Faster R-CNN,YOLOv3YOLOX等模型进行比较。结果表明,Re-YOLOX模型的平均预测精准率mAP可达94.23%,平均召回率mR可达91.99%,平均F1mF1可达89.67%,均高于对比模型。综上所述,文章提出Re-YOLOX在保证目标识别效率的前提下提高了目标识别的精度,可为近岸海域管理提供技术支撑。

0 引言

近岸海域是指20 m等深线至海岸线的海域 。近岸海域监测目标既包括自然环境监测要素(如海、浪、流、潮和水边线等),又包括人类活动监测要素(如船只、车辆、垃圾、人和大坝等),近岸海域监测目标的高精准识别对海洋经济的健康发展、海洋环境的生态保护以及海洋防灾减灾等都具有重要的作用。受自然环境和人类活动的影响,近岸海域监测目标具有多类型、多尺寸和不确定性等特征,如何提高近岸海域监测目标的识别效率是制约海域管理智能化水平的关键问题之一。

深度学习是机器学习算法中的新技术,其动机在于创建一个神经网络并模拟人脑进行分析学习。Hinton20世纪80年代提出了适用于多层感知机(multi-layer perceptron,MLP)的反向传播算法,使深度学习进入人们的视野。其后,LeCun等于1998年提出了卷积神经网络(convolutional neural networks,CNN); Girshick等于2014年提出了区域卷积神经网络(regions with CNN, R-CNN)目标识别模型; Redmon等 于2015年提出了YOLO(you only look once)目标识别模型。深度学习逐渐被应用于目标识别领域,其目标识别的精度和效率逐渐优化。目前,已有学者将深度学习应用于海洋监测领域,关克平等提出将目标检测算法CenterNet与目标跟踪算法DeepSORT相结合的船舶交通流视觉图像统计方法; 许延雷等提出了基于自适应阈值的改进CenterNet航拍图像目标检测算法; 岳邦铮等设计了适用于(synthetic aperture Radar,SAR)影像的船舶目标检测特征提取模型; 聂鑫等通过改进YOLOv3提出了一种在复杂场景下的船舶检测方法; 齐亮等提出了一种改进的基于区域的快速卷积神经网络(faster region with convolutional neural network,Faster R-CNN)的船舶目标检测方法; 盛明伟等通过在YOLOv3中引入注意力机制,提出了一种改进YOLOv3的船舶目标检测算法。

上述研究将深度学习应用于海域监测,提高了海域监测目标识别的精度和效率。但现有的识别模型多针对某一特定的监测目标,直接将其应用于多类型近岸海域监测目标的同步识别,存在精度和效率欠佳现象,特别是面对小目标的识别其漏检或错检现象严重。本文针对近岸海域监测目标的特点,提出了一种近岸海域监测目标识别模型(Re-YOLOX),提高多类型近岸海域监测目标同步识别的精度和效率,特别是提高小目标的识别精度。

1 近岸海域监测目标识别模型(Re-YOLOX)

1所示为利用可学习的图像调整模型(Resizer model)改进的YOLOX近岸海域监测目标识别模型(Re-YOLOX),其中AB分别为Resizer modelYOLOX,包括: ①利用Resizer model 加强模型的训练,提高模型的召回率,如图1中红色虚线框A所示; ②改进YOLOX模型特征金字塔融合结构,提高Re-YOLOX模型多尺度特征的融合能力,如图1中黑色虚线框B所示。

1   近岸海域监测目标识别模型(Re-YOLOX)结构框架

1Focus4种不同的空间压缩方式和一个2D卷积层组成的压缩卷积层; BaseConv是由2D卷积层、批归一化层(batch normalization,BN)以及SiLU激活函数组成的卷积单元; CspLayer由残差卷积模块组成的卷积层; SPPBottleNeck2Base-Conv单元和4个大小不同的池化层组成的金字塔池化层。

YOLOX模型由旷视科技于2021年提出,该模型保持了YOLOv5的网络结构,其主干特征提取网络(Backbone)采用交叉阶段部分连接(cross stage partial network,CSPNet)并结合Darknet-53CSPDarknet结构。YOLOX模型将空间金字塔池化网络(spatial pyramid pooling networks,SPPNet)应用到主干特征提取网络中,代替了原有池化层,提高了目标检测的准确率。同时,在特征层融合部分,将上采样和下采样结合,实现了多尺度特征的融合。YOLOX应用双解耦头结构,对来自主干特征提取网络的特征层分别进行分类操作和定位回归操作,加快了模型的收敛速度,提高了检测精度。与单阶段目标识别模型比较,YOLOX模型无须生成检测目标先验框,可直接对特征点进行回归分析,精简了模型参数并提高了检测精度。与双阶段目标识别模型相比,YOLOX模型无须先生成候选区域,可直接对图像进行特征提取,亦提高了检测速度。因此,面向多类型、多尺寸和不确定性等特征的近岸海域监测目标识别,本文将YOLOX模型作为基础模型。

1.1 利用Resizer model加强模型训练

YOLOX模型采用固定尺度的图像输入,通过对图像进行缩放、镜像和对比度变化等操作提高模型的泛化性。此过程易导致图像细节特征丢失,当图像存在重叠面积的2个或多个目标,或存在较多小面积目标时,细节特征丢失现象会加剧,进而引起漏检测或错检测等问题。为解决该问题,本文引入Resizer model加强模型的训练。

Resizer model是谷歌研究院于2021年提出的图像预处理模型,其借鉴 Resnet的跳跃连接思想,将图像经过原始线性插值方法与学习后线性插值方法融合处理后的特征信息,整合到了CNN中。在进行模型训练时,Resizer model可根据识别模型每轮训练的反向传播结构优化其图像调整参数,使Resizer model成为一种可学习的图像调整模型。在Re-YOLOX模型中,图像直接输入Resizer model,通过卷积运算和双线性插值方法实现图像预处理,将预处理的结果直接输入到图1(B)所示的识别模型中进行特征提取。Resizer model根据其识别模型每次的反向传播结果,优化调整卷积核的参数,进一步调整双线性插值方法对图像的预处理。经过Resizer model处理后的图像尺寸保持一致,且保留了图像的细节特征,加强了模型的特征提取能力。

1.2 改进YOLOX模型的特征金字塔融合结构

YOLOX模型的主干特征提取网络较深,多达上百层。小目标的特征信息会在多次卷积操作后减弱甚至消失。为提升Re-YOLOX模型对小目标物体的识别能力,YOLOX模型的特征金字塔融合结构中新增一个高分辨率特征层,新增特征层融合结构如图1(B)中红色实线框所示。

YOLOX模型的主干特征提取网络中ResBlock-n表示第n个组合卷积结构,每个组合卷积结构由BaseConv单元和CspLayer层组成。其中BaseConv单元由2D卷积层、BN层以及SiLU激活函数组成; CspLayer层由残差卷积模块组成。如在输入图像宽高为640像素×640像素时,主干网络中的第一个组合卷积结构ResBlock-1的输出特征层的宽高为160像素×160像素,其中拥有大量小目标物体的特征信息。Re-YOLOX模型将160像素×160像素的特征层与来自特征金字塔底层经过上采样得到的特征层,在通道维度上进行拼接,并将拼接得到的特征层用于密集卷积操作,后再一次进行下采样特征提取。在得到经下采样特征提取的特征层后,Re-YOLOX模型将其与特征金字塔上采样过程中具有相同宽高尺寸的特征层再次拼接,实现多尺度特征融合。改进后的特征金字塔融合结构充分利用了主干特征提取网络对图像提取的浅层特征信息,对小目标更加敏感。

1.3 训练Re-YOLOX模型及设置参数

Re-YOLOX模型通过2个阶段进行训练。在第一阶段,使用YOLOX原有的图像预处理方法对模型进行训练,在模型收敛后,保存权重文件,作为第二训练阶段的初始化模型。在第二阶段,用第一训练阶段保存的权重文件对模型参数初始化后,使用Resizer model对模型进行加强训练,使模型在第一训练阶段的基础上,继续学习目标物体的更多细节特征。第一和第二训练阶段的Epoch都为100,为加强对Resizer model和添加高分辨率特征层的特征金字塔融合结构的训练。前50 Epoch冻结模型的主干特征提取网络,第一阶段仅对模型的多尺度特征融合结构进行训练; 第二阶段对多尺度特征融合结构和Resizer model进行训练。2个训练阶段其余参数设置相同,具体包括Momentum=0.9,Decay=0.005,batch size=4,学习率LR设置为0.001。后50 Epoch对全部参数进行训练,为提升模型的稳定性,50 Epoch的学习率LR设置为0.000 1。优化器为SGD,使用余弦退火学习机制。

2 实验设计

2.1 数据集

选取无人机航拍的上海市近岸海域视频数据,采用视频抽帧方式构建训练和测试数据集(2)。实验数据为抽取的1 010张图像,大小为960像素×1 080像素,随机选择80%作为训练集,10%为验证集,10%为测试集。以车辆、船只和堆砌物为近岸海域监测目标,用开源标注工具LabelImg对监测目标进行标注,共标注监测目标15 425个。图3所示为15 425个目标物体的尺寸统计,横、纵坐标分别为目标的宽度和高度,单位为像素,根据COCO数据集标准,将像素面积小于32像素×32像素的目标划分为小目标,像素面积大于96像素×96像素的目标划分为大目标[19]。由图3可知,数据集中的中小型目标占比较大,大多数目标集中分布于0~100像素之间。

2.2 实验环境

实验硬件配置为Inter Core i7-9700 CPU处理器,GeForce GTX 2060显卡的服务器。操作系统为64Windows 10,深度学习框架为pytorch,可视化工具为Matplotlib

2.3 评价指标

选用精准率(precision,P)、召回率(recall,R)、平均均值准确率 (mean average precision,mAP)和平均召回率 (mean recall,mR)、平均F1(mean F1,mF1)和模型的检测速度(frame per second,FPS)对识别模型的性能进行评价。

3 实验对比与分析

本节分别设计了消融实验和对比实验对提出的Re-YOLOX模型进行可行性和性能验证。

3.1 消融实验

4给出了YOLOX模型与Re-YOLOX模型损失函数变化曲线比较。由图4(a)可看出,YOLOX模型在训练过程中损失函数值随着迭代次数的增加逐渐降低,Epoch=80,损失函数变化曲线趋于稳定,表明模型逐渐收敛。由图4(b)可看出,Re-YOLOX模型在原有数据集上继续训练,损失函数值继续下降,Epoch=95,损失函数值最低,此时得到的训练模型为最佳网络模型。结果表明,利用Resizer modelYOLOX模型进行加强训练,提升了模型的学习能力。

4   损失函数变化曲线对比

1所示为Re-YOLOX模型中各改进模型的性能比较,其中,YOLOX+resizer表示将Resizer加入YOLOX模型的图像预处理中; YOLOX+add表示在YOLOX模型的特征金字塔融合结构中添加高分辨率特征层。由表1中可知,YOLOX+resizer模型和YOLOX+add模型均提升了原有YOLOX模型的mAP值、mR值和mF1,但其检测速度略有下降。YOLOX+resizer模型通过增设Resizer模块,强化了YOLOX模型的特征提取能力,船只的精准率和召回率提升明显,分别增长4.324.94百分点; 同时其mAP值提高2.14百分点,mR值提高4.26百分点。YOLOX+add模型通过在特征金字塔融合结构中添加高分辨率特征层,降低了小目标在深度卷积过程中信息损失对模型的影响,车辆和船只的召回率分别提高了7.235.97百分点,同时其mR值提高了5.69百分点。而本文提出的Re-YOLOX对小目标更加敏感,特别是对尺寸较小的车辆和船只,相较于YOLOX,召回率分别提高了8.07百分点和8.42百分点。

1   消融实验测试结果

3.2 对比实验

将提出的Re-YOLOX模型与CenterNet,Faster R-CNNYOLOv3模型进行比较,其中Faster R-CNNYOLOv3是基于anchor设计的代表性模型,CenterNet基于anchor-free设计的代表性模型。实验以4幅不同的近岸海域监测数据为例,2给出了不同模型的识别结果,其中红色框、蓝色框和绿色框分别表示车辆、船只和堆砌物的识别。表3给出了不同模型的识别结果评价指标。

2   不同模型的目标识别结果

3   不同模型的评价指标

由表2和表3可看出,Re-YOLOX模型对于位置邻近且有重叠遮挡的目标和小尺寸目标具有更好的识别效果,如面向图像a的目标识别,只有Faster R-CNNRe-YOLOX模型将右下方的2只船只识别开来,Re-YOLOX预测框的回归效果明显优于Faster R-CNN预测框; 面向图像c的目标识别,其他模型均存在明显漏检现象,尤其是CenterNet模型漏检现象最严重,Re-YOLOX模型识别出了所有船只和车辆。同时,Re-YOLOX模型具有最高的mAP, mRmF1,分别为94.23%,91.99%89.67%。但Re-YOLOX模型的FPS略低于CenterNetYOLOv3,高于Faster R-CNN模型。总体而言,Re-YOLOX模型在保证目标识别效率的前提下提高了目标识别精度。

4 结论

本文针对近岸海域监测目标识别精度要求高和实时性要求强等现实需求,兼顾近岸海域监测目标的多尺度及小目标多等特性,提出了一种近岸海域监测目标识别模型(Re-YOLOX模型),包括: 利用可学习的图像调整模型加强Re-YOLOX模型训练,提高模型的特征学习能力和表达能力; 改进Re-YOLOX模型的特征金字塔融合结构,缓解小目标识别的漏检问题。

用无人机监测的近岸海域视频数据作数据集,以车辆、船只和堆砌物为监测目标,通过消融实验和对比实验对提出的Re-YOLOX模型进行可行性和性能验证。消融实验结果表明,Re-YOLOX模型中Resizer模块的增设,强化了YOLOX模型的特征提取能力; 在特征金字塔融合结构中添加高分辨率特征层,提高了小目标的识别能力。通过与CenterNet,Faster R-CNN,YOLOv3YOLOX模型的对比实验结果表明,Re-YOLOX模型可满足近岸海域监测目标的识别需求,mAP,mRmF1值均优于其他识别模型。

(原文有删减)

【作者简介】王振华(1982-),,博士,教授,研究方向为海洋大数据处理及分析。

zh-wang@shou.edu.cn

【基金资助】自然资源部海洋环境探测技术与应用重点实验室开放基金项目“基于深度学习的海岛与海岸带典型要素智能监测关键技术研究与试点应用”(MESTA-2021-B007);上海市地方院校能力建设项目“复杂潮汐环境影响下海岛()地物信息提取与精度验证方法及其示范应用”(19050502100)

【引用格式】王振华, 谭智联, 李静, 常英立. Re-YOLOX: 利用Resizer改进的YOLOX近岸海域监测目标识别模型[J]. 自然资源遥感, 2023, 35(3): 10-16.

转自:“测绘学术资讯”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com