-
0 引言
-
随着声学传感技术的不断发展,声呐设备的不断先进,基于声学图像的水下目标识别已经成为越来越重要的一个课题,世界上各国的军事专家,学者,研究人员等都对其极为关注。传统的声学图像目标识别系统中,主要以图像分割、轮廓提取等人工特征为主。近年来,随着深度学习在图像识别技术领域的不断发展,将深度特征应用到声学图像目标识别中来[1-4],与人工特征进行结合,以此提高目标识别准确率成为可能。
-
1 声图合成与处理
-
声呐成像是获取水下信息的重要方式,其设备包括前视声呐系统、侧扫声呐系统、合成孔径声呐系统等。侧扫声呐成像分辨率高、成像覆盖完整,被广泛应用于目标探测与搜索,水下地形勘探等[5-6]。
-
侧扫声呐回波数据受作用原理[7-8]、复杂水下环境等因素影响,存在干扰与衰减,一般而言声波频率越高、距离越远衰减的越严重,同时噪声干扰也越明显。因此需要对侧扫声呐数据进行必要的预处理,包括衰减补偿及噪声抑制等。侧扫描声呐以尽可能高的采样频率对回波数据进行采集,通过结合AUV运动参数与声呐参数建立时空模型,对声呐换能器接收到的回波数据进行解析,定位每次回波的首尾位置(包含水底、水面等信息)。声呐换能器接收到的第1个回波信号一般来自载体正下方,其强度较大,之后接收到的回波在强度上具有较好的连续性,根据声呐量程设置完成一次测量,一次测量得到的回波序列称为1Ping。如图1,图1(a)为侧扫声呐工作模型,图1(b)为单侧声呐回波数据,根据AUV采集到的水深、高度、姿态等信息可知,图1(b)中“1”为AUV端、“2” 为水底、“3”为水面、“4”为最远端。
-
图1 回波信号
-
Fig.1 Sonar signals
-
对换能器采集的回波数据进行定位解析后,进行一定的滤波处理与补偿,量化编码后映射为图像中的灰度信息,得到一行图像数据。声呐在前进过程中,结合载体的运动参数以特定的频率不断发射、接收处理回波信号,形成回波图像序列,将左右舷的回波图像序列进行拼接,形成侧扫声呐瀑布图像。拼接后的图像为灰度图像,为便于分析与观测,一般按照一定的色表进行像素映射,从而得到较为直观的彩色图像。
-
由于各类干扰源的存在,侧扫描声纳的原始图像存在一定的条纹干扰与像素空洞,一般为采样数据丢失或回波数据丢失造成的。本文采用二步滤波法去除噪声:首先采用垂直方向的中值滤波去除条纹噪声,然后采用水平方向的均值滤波填充空洞噪声如图3。
-
图2 侧扫声呐图像
-
Fig.2 Side-scan sonar image
-
图3 图像去噪
-
Fig.3 Image denoised
-
2 卷积神经网络设计
-
本文基于Darknet框架设计轻量化卷积神经网络模型,该深度学习网络架构由C语言实现,没有任何依赖项,支持CPU与GPU,可裁剪性强,便于嵌入式部署。本文充分考虑到侧扫声呐成像特点,针对目标声学图像尺寸变化大等问题,设计有效的网络模型。本文设计的单类别目标识别网络结构如下。
-
1)网络输入。
-
侧扫声呐图像合成瀑布图后,包含左右声呐数据的图像较宽,本文按照一定高度截取图像后,将左右声呐图像按照上下方式拼接。拼接后的图像同样满足宽度大于高度。卷积神经网络模型输入尺寸设置为608×416(W×H),如图4。
-
图4 图像拼接
-
Fig.4 Image merged
-
2)骨干网络。
-
骨干网络参考YOLO-v3结构[2-3],设计层数为12层,如图5。第1层利用24个3×3/1的卷积核对原始图像进行卷积计算,提取浅层特征,对卷积结果采用leaky进行激活输出,得到608×416*24大小的特征图;第2层采用最大值池化处理,窗口大小为2×2,移动步长为2,得到304×208*24的特征图,实现对输入浅层特征的降维处理,以减少计算量;第3层利用32个3×3/1的卷积核对上层输出的特征子图进行卷积运算,使用leaky进行激活输出;第4层为窗口大小2×2,步长为2的最大值池化层;第5~12层分别进行5次卷积运算与3次最大值池化处理,依次得到不同深度的网络特征。
-
图5 网络结构图
-
Fig.5 Network structure
-
3)特征选择。
-
被识别目标尺寸变化范围较大,本文分别选择浅层、中层、深层3个网络层特征,以适应不同尺度的目标识别。特征层1选择第12层输出,维度为19×13*512;特征层2由第11层输出进行1次1×1/1*128的卷积运算后与第9层特征合并,再分别经过3×3/1*256、1×1/1*128、3×3/1*256的卷积运算得到,维度为38×26*256;特征层3合并特征层2的部分输出与第7层卷积输出结果,经过1次3×3/1*256卷积运算得到,维度为76×52*256。
-
4)结果输出。
-
本文采用yolo网络结构[10-11]思想,直接输出目标的位置与置信信息(x、y、w、h、confidence)5个基本参数,由于本文只做单类别目标识别,每个特征层可预测3个不同尺度的输出,因此对上述特征输出采用1×1/1*18的卷积运算。
-
3 卷积神经网络训练
-
本文训练数据由AUV采集的水下金属球体声呐数据经过图像合成得到,通过不同角度、不同水深与航行参数得到。数据集划分为2类,一类是标注好的带有目标的图像,一类是没有目标的背景图像,数据量以一比一设置,以便于网络正确收敛。
-
使用K-means统计anchor(尺度参数):本文的网络结构需要首先根据标注数据计算anchor值,由于采用的是3特征层结构,需要统计9个anchor值,K-means聚类算法,采用距离作为相似性的评价指标,即认为2个对象的距离越近,其相似度就越大,该算法可比较准确的统计出代表框大小。
-
损失函数与YOLO-v3相同,包含3部分:第1部分是目标位置 x,y,w,h(左上角和长宽)带来的误差,也即是box带来的loss,box带来的loss分为 x,y 带来的BCE Loss以及 w,h 带来的MSE Loss; 第2部分是目标置信度带来的误差,也就是obj带来的loss(BCE Loss);第3部分是类别带来的误差,也就是class带来的loss(类别数个BCE Loss)。
-
模型训练采用AlexeyAB开源库实现,训练数据为1 900个,测试数据为200个,从下图训练过程可见,经过8 400次迭代后,loss小于0.1,平均检测精度达99.1%,模型达到收敛状态。最终得到的模型大小为11MB,单次目标检测时间为105ms (Intel I7处理器)。
-
4 图像增强与目标特性分析
-
基于卷积神经网络完成目标识别后,还需要对目标进行进一步的特征分析[9,12]。特定声学成像场景下,目标声图灰度等级较低,特征单一,需采用有效的图像增强、目标分割、人工特征提取来鉴别真实目标。图7(a)为包含目标的声学图像(经过去噪处理后转为灰度图像),对比度较低,不利于目标提取与分割。本文首先采用去均值处理得到图7(b),图7(b)中目标附近依然存在灰度干扰,对图7(b)采用Gamma增强处理,γ取值1.5,效果如图7(c),可见目标区域有效凸显,非常利于后续目标分割。
-
本文所述人工特征包含:尺度、亮度值、外形、高亮区域数量、灰度值分布等。对声学图像分析可知,空心金属球与实心金属球展现的声图具有较为明显的不同:空心球体呈现多亮斑特点、实心球亮斑较大且比较圆,该特征可作为金属球的类别判定。图8(a)为空心球体,图8(b)为实心球体。
-
图6 训练过程
-
Fig.6 Training result
-
图7 处理效果
-
Fig.7 Image processed
-
图8 处理效果
-
Fig.8 Image processed
-
5 几何校正与目标定位
-
如图9,侧扫声呐图像中像素点的位置实际上是换能器与水底表面回波点之间的声波往返时间与水中声速相乘获得的倾斜距离,并不是载体与水底成像点之间的水平距离,这是导致声学图像几何畸变的主要原因。此外,载体的运动参数与姿态也对成像造成几何畸变。本文基于声图定位目标后,引入修正机制得到目标的真实位置。根据侧扫声呐成像方式可知,目标物在侧扫声呐图像中存在横向压缩,目标与载体距离越大,压缩率越大。所以为了准确获取声图中目标物的实际位置,有必要对目标的坐标位置进行斜距校正。
-
图9 几何模型
-
Fig.9 Geometric model
-
假设海底表面是水平面,海底回波点的平距就可以用下式来计算:
-
式中:D 为平距;S 为斜距;H 为载体距离水底高度。得到平距后,已知AUV的空间位置信息,即可计算出目标实际所处的位置。
-
6 结束语
-
本文针对待识别目标的声呐图像特点,设计了轻量化卷积神经网络模型,达到了99.1%以上的目标检测精度,模型大小11MB,适于低功耗嵌入式平台部署。融合了人工特征进行目标特性分析,针对声图灰度等级较低的情形,采用的目标提取与图像增强方法简单有效。
-
参考文献
-
[1] KARPATHY A,TODERICI G,SHETTY S.Large scale video classification with convolutional neural networks[C]//IEEE Conference on CVPR.Columbus:Computer Vision Foundation,2014.
-
[2] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[J].IEEE Computer Society,2016:779-788.
-
[3] REDMON J,FARHADI A.YOLO9000:Better,Faster,Stronger[C]//Proceedings of IEEE Conference on CVPR.Washington D.C.:IEEE Computer Society,2017.
-
[4] 于淼.基于深度学习的侧扫声呐图像目标检测方法研究[D].哈尔滨:哈尔滨工程大学,2020.
-
[5] 覃珊珊.基于SFS方法的侧扫声呐图像三维重构研究[D].西安:西安理工大学,2021.
-
[6] 高飞,王晓,杨敬华,等.多条带侧扫声呐图像精拼接方法研究[J].科技创新与应用,2021(5):1-4.
-
[7] 仰海波.侧扫声呐图像预处理与匹配方法研究[D].哈尔滨:哈尔滨工程大学,2020.
-
[8] 王丽娜.侧扫声呐数据采集与地貌图像构建[J].北京测绘,2018,32(8):965-969.
-
[9] 白宇冰.基于侧扫声图目标的分割与检测方法研究[D].北京:清华大学,2018.
-
[10] REDMON J,FARHADI A.YOLOv3:an incremental improvement[J].ArXiv,2018:1804.02767.
-
[11] KRIZHEVSKY A,SUTSKEVER I,HINTON G,et al.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.
-
[12] 李海森,高珏,徐超,等.应用TBD的多波束声呐图像序列SIFT特征追踪[J].哈尔滨工程大学学报,2016(8):1009-1014.
-
摘要
为实现自主水下潜器(Autonomous Underwater Vehicle,简称 AUV)的自主目标探测识别与定位任务,以侧扫声呐数据为依据,考虑到扫描式声呐成像的特点,针对金属球类目标,基于 Darknet 框架设计了一种轻量化深度学习目标识别模型,并结合人工特征进行目标特性分析。同时对声呐图像设计了有效的图像增强方法。实验表明:上述目标识别方法在保证目标识别准确率的同时,具有较高的目标识别速率,适于低功耗嵌入式平台部署。
Abstract
In order to realize autonomous target detection,recognition and positioning task of autonomous underwater vehicle(AUV),basing on the side-scan sonar data and considering the characteristics of side-scan sonar images,a lightweight deep learning target recognition model is designed in this paper based on Darknet framework for metal balls. And the characteristics of metal balls are analyzed combining with artificial characteristics. At the same time,an effective image enhancement method is designed for sonar images. Experiments show that the objects recognition method described in this paper not only ensures the accuracy of target recognition,but also provides a high processing rate,which is suitable for the low-power embedded platform.
关键词
目标识别 ; 声图合成 ; 侧扫声呐 ; 深度学习 ; Darknet 框架
Keywords
object recognition ; sonogram synthesis ; side-scan sonar ; deep learning ; Darknet framework