-
0 引言
-
受到水中悬浮颗粒物的影响,光线传播发生吸收和散射等作用,水下光学图像普遍存在颜色失真、纹理细节丢失、对比度低和图像模糊等问题。同时,水下环境光线昏暗,仅依靠自然光源难以成像,需要增加人工光源辅助。而这种非单一、不均匀的人工光源进一步增加了水下图像复原的难度。混合光源环境下的水下光学成像原理如图1 所示。人工光源从成像设备处出发,经过成像设备到物体之间的距离照到物体上进行补光,这段传输距离中,人工光源同样因为水下的吸收和散射作用被衰减。对物体进行光补偿后这部分光同物体本身反射光一起,再次在水中传输过物体到成像设备之间的距离后被成像设备捕获,在这一段传输距离中,补偿后的反射光同样会因为水下的吸收和散射作用被衰减。此外,进入成像设备的光线还有因散射进入成像设备的部分环境光。由于透射率随场景深度指数衰减,则深度越大,透射率越小,即退化越严重。这类退化图像影响了后续水下目标检测等应用的性能。为了改善退化图像的视觉质量,研究人员提出了诸多水下图像清晰化方法。然而现有方法大多基于自然光源场景,很少考虑人工光源的影响。因此,研究包含自然光源和人工光源的混合光源环境下的水下图像清晰化方法具有挑战性和实用价值。
-
现有的考虑混合光源的水下图像清晰化算法较少且基本是传统算法。根据是否依赖成像模型,可分为传统增强方法和传统复原方法。传统增强方法[1]通过融合色彩平衡和对比度增强,能够有效增强不同光照条件下的水下图像。但由于传统增强方法并未考虑图像的退化原理,忽略了退化程度与成像深度的关系,导致增强结果不够自然真实,常常出现局部区域“过增强”或“欠增强”现象。传统复原方法[2]通过最小信息损失先验减弱人工光源的影响,借助颜色信息估计出透射率和环境光,代入水下成像模型中复原出清晰图像。然而由于水下环境复杂多变,传统复原方法难以得到高可靠的先验条件,在一些场景下会因先验失效而导致图像复原结果不理想。
-
图1 混合光源环境下的水下光学成像原理图
-
Fig.1 Principle of underwater optical imaging in hybrid light source environment
-
近年来,基于深度学习的方法在水下图像处理领域已经取得了先进的性能。这类方法利用深度神经网络的特征挖掘能力和非线性拟合能力,构建大量数据训练网络,从而学习退化图像和清晰图像的非线性映射关系。虽然部分深度学习方法考虑到人工光源的影响,但是受限于数据集和网络结构,导致这些方法泛化性不足,不能很好地推广到真实的混合光源水下场景中。
-
针对上述方法存在的问题,笔者提出了光照感知注意力编解码器网络用于混合光源下的水下图像复原。首先,网络引入光照感知作为先验嵌入到网络结构中,感知光源并均衡图像的对比度。网络本身基于多尺度的编解码器结构,能够有效集成多尺度特征。同时,注意力机制的引入使得网络更关注需要复原的区域。笔者在具有丰富水下退化环境的数据集 EUVP[3]上训练和测试所提网络,实验结果表明,与现有典型方法相比,本文网络在包含混合光源的水下图像处理任务中能取得更为理想的效果。
-
1 相关工作
-
现有的水下图像复原方法主要分为传统方法和基于深度学习的方法。传统的水下图像复原方法主要是依据水下成像模型进行设计。但是,随着计算机硬件成本的下降、计算能力的提升以及训练数据集的丰富,基于深度学习的复原算法研究得到迅猛的发展,成为近年水下降质图像清晰化研究的主流方向。
-
近年来,学者们提出许多基于深度学习的水下降质图像处理算法,这些算法在图像处理任务中得到的效果相对于传统方法很好。基于深度学习的水下图像处理算法方法分 3 类:基于生成对抗模型 (Generative Adversarial Networks,GAN)[4]的方法、基于水下成像模型的复原方法以及端到端的图像复原算法。基于 GAN 的水下图像复原方法训练难度大,难以平衡生成器和鉴别器的性能。基于水下成像模型的深度学习算法通过 CNN 网络估计透射率和环境光,然后利用成像模型完成图像复原。这类方法一方面存在误差累积问题,如微小的环境光估计误差会导致复原结果出现明显的色偏;另一方面受限于简化的水下成像模型,不适用于混合光源场景。相比而言,端到端的复原方法不受水下成像模型的显式约束,通过构建合适的网络结构和损失函数,直接预测输出复原后的水下图像,其设计训练更容易,复原效果更佳,适用范围更广。
-
由于端到端的复原算法优势明显,研究者们提出了很多代表性的工作,比如 MA 等人提出的 UIE-WD[5],ANKITA 等人提出的 Shallow-UWNet 方法[6]和 LIU 等人提出的 LANet[7]。UIE-WD 利用离散小波变换将输入图像分解为多个子带图像,在频率域借助丰富的高频信息增强子带图像的细节和结构。该算法包含 2 个子网络:多色空间融合网络和细节增强网络。其中,多色空间融合网络将不同颜色空间的特征表示作为输入,输出颜色校正后的特征表示;细节增强网络通过改进高频子带的图像细节来解决原始水下图像的模糊问题。Shallow-UWNet 提出了一种轻量卷积神经网络结构。该方法将原始输入图像通过跳跃连接与每个残差块的输出进行拼接;跳跃连接对与原始输入图像相关联的通道赋予更大的权重,确保每个残差块都能学习到原始图像的基本特征。然而 Shallow-UWNet 和 UIE-WD 并未考虑混合光源的影响,对混合光源场景水下图像处理性能不佳,泛化性不足。考虑到水下环境中多样的照明条件,LANet 提出了一种基于注意力机制和自适应学习的水下图像增强网络。其中,并行注意力模块用于关注光照特征和颜色信息;自适应学习模块保留了浅层信息,自适应地学习重要的特征信息。
-
相较于 LANet 借助注意力机制隐式地感知光照特征,笔者所提网络直接引入光照图作为约束加权到图像特征,结合了传统图像先验和卷积神经网络的优点,解释性更强,复原效果更好。
-
2 光照感知注意力编解码器网络
-
2.1 网络结构
-
笔者提出的光照感知注意力编解码器网络 (Illumination-aware Encoder-Decoder Net,IEDN,其整体架构如图2 所示。网络将退化水下图像 I 和对应的光照感知图 L 作为输入,输出复原后的清晰图像 J。
-
图2 网络整体结构图
-
Fig.2 Overall structure of IEDN
-
在混合光源水下场景中,水质和照明条件复杂多变,导致退化类型多样。尤其是人工光源的引入,可能导致图像光照不均匀,局部区域过亮。如果不移除人工光源的影响,图像质量恢复时容易出现过增强等现象。为了提高网络在混合光源场景下的泛化能力,笔者引入了光照感知图作为注意力先验嵌入到网络结构中,以均衡复原结果的对比度,提升整体视觉质量。光照感知图[8]的指导原则是:赋予亮度暗的区域较高权重而亮度高的区域较低权重。权重和编解码器网络的输出相乘,从而实现对图像对比度的调整。网络的整体处理流程
-
式中:为编解码器网络;为权重和偏置等模型参数;concat为通道拼接操作。将退化图像和光照图通过通道拼接后输入编解码器网络中,解码端的输出先和光照感知图相乘均衡对比度,再通过长连接与输入退化图像相加,最后输出清晰图像。
-
IEDN 的主体结构采用精心设计的三尺度并行编解码器结构,利用从粗到细的策略恢复清晰水下图像。高分辨率尺度保持了精细的空间细节和结构特征,低分辨率尺度扩大了感受野,近一步增强了网络的细节重建能力。核心模块包括:三尺度特征提取块(Three-scale Feature Extraction Block, TFEB)、压缩激励残差模块(Squeeze-Excitation Res2block)、残差双注意力模块(Residual Double Attention Block,RDAB)和特征融合模块(Feature Fusion Block,FFB)。
-
三尺度特征提取块组合了 3 种不同核大小的卷积,拓展了感受野,有利于编码器端提取丰富的结构特征。如图3 所示,输入特征图在通道维被分割成 2 个子特征图,子特征图分别通过不同核大小的卷积并行处理,然后在通道维进行拼接。设置了 3 种不同的卷积组合,分别是 3×3/5×5、 5×5/7×7 和 3×3/7×7。三尺度特征提取块还引入局部残差,以有效缓解梯度消失等问题。压缩激励残差模块[9]能在粒度级别表示多尺度特征,并结合通道注意力高效引导网络将注意力集中到待复原的区域。考虑到 SE-Res2block 参数量小且特征表示能力强,因此所提网络在编码器和解码器中都采用了该模块。
-
图3 三尺度特征提取块和残差双注意力模块的结构
-
Fig.3 Detailed structures of TFEB and RDAB
-
如图3 所示,残差双注意力模块相较于普通残差块,引入了双注意力,即并联的通道注意力和像素注意力[10]。双注意力的特征处理方式让网络将更多的注意力集中在不同水下场景中的重要像素点和重要通道上,可以灵活处理各种信息,对一些严重退化但有丰富细节的水下图像的恢复效果提升显著。
-
下采样由平均池化层和卷积层组成,上采样由双线性插值和卷积层组成,卷积层的引入缓解了上下采样操作导致的空间细节丢失问题。编码器的中间特征通过特征融合模块与解码器的中间特征融合,增强了上下文信息的融合。特征融合模块[11] 通过逐像素点卷积和注意力模块融合局部和全局上下文特征,相较一般的加法和拼接操作,能够更好地解决尺度不连续的问题。
-
由于结合了上述模块和光照感知的优点, IEDN 具备强大的细节和结构保持能力,能够复原出更为清晰的图像纹理和更加真实的图像色彩。
-
2.2 损失函数
-
平滑 L1 损失函数在误差小于 1 时采用均方误差形式,而其余情况均采用标准差误差形式,从而有效兼顾了 2 种损失函数的优点,其表达式为
-
式中,代表误差,即网络复原结果和真值图的差值。
-
色彩感知损失函数基于色彩通道距离指标,可校正水下图像的色偏,引导复原图像呈现更加自然的颜色。损失函数
-
式中:(x,y)为像素点的位置; H 和W 分别为图像的长和宽;nr 为所提网络输出图的红色通道与相应标签图红色通道的平均值;分别为所提网络输出图的红色、绿色、蓝色通道与相应标签图红色、绿色、蓝色通道的差值。该损失函数计算的颜色距离较常规的三通道等权重颜色距离,更符合人眼的观感,由该损失函数引导学习得到的图像颜色更加自然。
-
边缘感知损失函数使用在 ImageNet 预训练好的 VGG16[14]网络提取中间特征图,量化复原结果和清晰图像之间的视觉差异,有助于恢复水下图像的细节信息和保持清晰的边界。计算方式为
-
式中:为矩阵的二范数;和 (j=1,2,3)分别为复原图像 J 与清晰图像 在 VGG16 中的 3 张特征图;Cj、Hj、Wj 分别为特征图的通道数、高和宽。
-
结合式(2)-(4),总的网络训练损失函数 Lt 由平滑 L1 损失函数、色彩感知损失函数和边缘感知损失函数加权结合而成,即
-
该损失函数综合考虑了网络收敛速度以及图像色彩和纹理细节恢复,引导网络在达到理想结果。其中,、和为权重系数。经过实验,设置为 =0.7, =0.15,=0.15。
-
3 网络训练
-
在本节中,笔者首先介绍实验细节。然后通过对比实验来评估 IEDN 与其它方法的性能差距。最后通过消融实验来验证网络结构和光照感知图先验对网络性能的影响。
-
3.1 实验细节
-
实验采用 EUVP 的子集 Underwater Scenes 对网络进行训练和测试。该数据集场景丰富,共有 2 185 对配对图像(包含混合光源环境的水下图像及其真值图),随机划分了 1 600 对训练集、400 对验证集和 185 对测试集。
-
网络在 Pytorch 平台上训练和测试,并采用 Adam 优化器进行更新。从训练集中每次抽取 16 幅图像送入网络训练,初始学习率 0.000 2。水下图像输入网络前,会被随机裁剪成 256×256 的分辨率,然后经过随机旋转和加噪被输入到网络中。整个网络在 NVIDIA GeForce RTX 3090 GPU 上训练 200 轮,耗时约 5 h。
-
本文使用有参考评价指标峰值信噪比(PSNR)、结构相似度(SSIM)和色差公式 CIEDE2000[15]对图像质量进行评价。其中,PSNR 和 SSIM 的指标越大越好,证明图像质量越高;CIEDE 的指标越小,说明生成的复原图像越符合人的主观感知。下面通过对比实验和消融实验来验证所提算法的有效性。
-
3.2 对比实验
-
笔者选取了 5 种算法作为对比方法,包括 1 种传统图像增强算法[1],记为 Fusion;1 种传统图像复原算法[2],记为 Li;3 种自然光源下的深度学习算法,分别是 2022 年 MA 等人提出的 UIE-WD[5]、2021 年 ANKITA 等人提出的 Shallow-UWNet 方法[6]、 2022 年 LIU 等人提出的 LANet[7],分别记为 UIE、 Shallow 和 LANet。为保证公平性,所有深度学习算法在本文使用的数据集上重新训练。表1 展示了 EUVP 测试集上,不同算法的有参考指标计算结果。
-
实验结果表明,本文所提算法在 3 个指标上的结果显著优于其他算法,客观上证明了我们算法的优秀性能。深度学习算法由于具有强大的学习能力,在性能上明显优于传统算法。UIE 方法使用转置卷积进行上采,而转置卷积的不均匀重叠会导致复原结果存在棋盘效应,影响主观效果和客观指标。Shallow 方法的优点是网络简单,但是同时导致网络学习能力弱,所以性能比本文方法和 LANet 要差。LANet 方法引入了双注意力机制,性能优于 Shallow 方法,但缺少强力的多尺度特征提取能力,因此性能低于本文方法。由于本文方法使用了具有多尺度特征提取能力的 TFEB 和 RDAB 模块,并且加入了光照感知图先验,在性能上明显优于对比方法。因为 TFEB 和 RDAB 能够高效提取丰富的结构细节特征,且光照感知图能作为先验约束网络复原结果的对比度。
-
注:最佳指标结果为最下面一行“本文方法”。
-
图4 给出了混合光照环境下的水下图像经过不同算法处理后的主观效果,其中第 7 行为明显的混合光源水下图像。图中偶数行图像是奇数行图像红框内的局部放大图像。从整体上来看,传统方法的处理效果不理想,与深度学习方法有较大的差距。LI 方法由于先验估计不准确,复原结果的主观质量不理想,引入了不自然的伪彩,如图4 第 6 行测试结果所示。而且,LI 方法的结果在局部区域会出现明显的过增强。Fusion 方法虽然能够有效提升图像对比度,但是由于其未考虑图像退化原理,部分增强结果不自然,如图4 中第 2 行测试结果所示。UIE 方法由于棋盘效应,会使还原后的图像出现不均匀重叠,主观看起来就像是一块块的图像拼接而成,如图4 第 8 行。Shallow 方法由于网络简单,得到的纹理细节模糊,且增强效果有限,如图4 第 2 行。LANet 方法由于对于光线变化敏感,会出现图4 第 8 行的噪点。总而言之,本文方法相对对比方法来说细节更丰富、色彩更符合人的主观感觉;就光源的处理来看,本文方法复原的水下图片光照更加自然,更接近标签。
-
图4 EUVP 数据集上的复原结果对比
-
Fig.4 Comparison of restoration results on EUVP benchmark
-
综上,本文所提方法在混合光源场景下表现优异。
-
为了验证本文方法与深度学习对比方法在算法复杂度上的差距,经过公平的实验测试,在表2 中列出了各项指标。
-
由表2 可知,UIE 方法参数量最低,所用卷积和 Activations 最少,以性能换取计算复杂度。本文所提算法实现了性能和计算复杂度的均衡,所用 FLOPs 最少,在参数量和 Activations 较低的情况下取得了最佳性能,推理速度也满足实时性需求。
-
3.3 消融实验
-
为了证明本文所提模块和创新点的有效性,笔者对本网络进行消融实验,具体分为 4 个方案:不使用光照注意力、不使用压缩激励残差模块 (Res2Block)、不使用 RDAB 模块和不使用 TFEB 模块的消融实验,消融实验结果如表3 所示。
-
注:最佳指标结果为最下面一行“本文方法”。
-
由表3 的实验结果可知,相比无光照注意力的消融实验,本文所提 IEDN 仅增加了极小的计算量实现了性能的提升。在 4 个模块中,TFEB 模块对性能影响最大,无 TEFB 模块的方案在 PSNR 指标上较 IEDN 相差 0.9 dB,说明引入具有多尺度特征提取能力的 TFEB 模块可以有效地提升网络性能。无 RES2 模块和无 RDAB 模块的消融实验与本文方法的指标差距也证明它们对网络性能具有显著的影响。从参数量上来看,TFEB 模块的影响最大,所需参数量接近本文方法的 1/2。
-
4 结束语
-
本文针对现有水下图像复原算法处理混合光源场景时的局限性,设计了一个具有多尺度特征提取能力的光照感知注意力编解码器网络。所提网络具备良好的泛化性和鲁棒性,能复原各种混合光源场景下的水下图像,色调更自然,纹理细节更丰富,图像质量更高,为后续水下高级视觉应用提供了有利条件。对比实验的结果表明本文提出的光照感知注意力编解码器网络在主观恢复效果和客观指标评价上,均优于其他算法。消融实验进一步证明了所提网络的各个模块和光照感知图约束的有效性。
-
虽然现在的网络结构已经能够取得比较理想的效果,但是仍然存在一些问题,如某些复原结果的边缘特征不明显。后续将通过增加边缘辅助模块,来增强网络对边缘特征的学习能力。此外还将探索一种有利于提升水下目标检测算法的图像复原方案。
-
参考文献
-
[1] ANCUTI C O,ANCUTI C,DE VLEESCHOUWER C,et al.Color balance and fusion for underwater image enhancement[J].IEEE Transactions on Image Processing,2017,27(1):379-393.
-
[2] LI C Y,GUO J C,CONG R M,et al.Underwater image enhancement by dehazing with minimum information loss and histogram distribution prior[J].IEEE Transactions on Image Processing,2016,25(12):5664-5677.
-
[3] ISLAM M J,XIA Y Y,SATTAR J.Fast underwater image enhancement for improved visual perception[J].IEEE Robotics and Automation Letters,2020,5(2):3227-3234.
-
[4] CRESWELL A,WHITE T,DUMOULIN V,et al.Generative adversarial networks:an overview[J].IEEE Signal Processing Magazine,2017,35(1):53-65.
-
[5] MA Z Y,OH C J.A wavelet-based dual-stream network for underwater image enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).Online:IEEE,2022.
-
[6] NAIK A,SWARNAKAR A,MITTAL K.ShallowUWNet:compressed model for underwater image enhancement(student abstract)[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Online:AAAI,2021.
-
[7] LIU S B,FAN H J,LIN S,et al.Adaptive learning attention network for underwater image enhancement[J].IEEE Robotics and Automation Letters,2022,7(2):5326-5333.
-
[8] FAN G D,FAN B,GAN M,et al.Multiscale low-light image enhancement network with illumination constraint[J].IEEE Transactions on Circuits and Systems for Video Technology,2022,32(11):7403-7417.
-
[9] DESPLANQUES B,THIENPONDT J,DEMUYNCK K.Ecapa-TDNN:emphasized channel attention,propagation and aggregation in TDNN based speaker verification[EB/OL].[2022-12-11].https://arxiv.org/abs/2005.07143.
-
[10] WOO S H,PARK J C,LEE J Y,et al.CBAM:convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV).Munich:ECCV,2018.
-
[11] DAI Y M,GIESEKE F,OEHMCKE S,et al.Attentional feature fusion[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.Santiago:WACV,2021.
-
[12] GIRSHICK R.Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision.Vancouver:IEEE,2015.
-
[13] ISLAM M J,ENAN S S,LUO P,et al.Underwater image super-resolution using deep residual multipliers[C]//2020 IEEE International Conference on Robotics and Automation(ICRA).Online:IEEE,2020.
-
[14] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition [EB/OL].[2022/12/11].https://arxiv.org/abs/1409.1556.
-
[15] LUO M R,CUI G,RIGG B.The development of the CIE 2000 colour-difference formula:CIEDE2000[J].Color Research & Application,2001,26(5):340-350.
-
摘要
水下环境光线昏暗,仅依靠自然光源难以清晰成像,通常需要增加人工光源,但人工光源的引入会导致场景亮度不均。在这种包含自然光源和人工光源的混合光照环境下,所拍摄的水下图像质量严重退化,不仅降低视觉观感,更影响后续高级计算机视觉任务的顺利开展。然而现有方法大都只考虑了自然光源的影响,对混合光源环境下的水下图像复原效果不佳。为了解决混合光源环境下水下图像存在的光照不均、色偏、细节模糊等问题,提出了一个光照感知编解码器网络用于水下图像复原。一方面,在多尺度结构中引入注意力机制和改进残差结构高效提取丰富的结构细节特征,另一方面增加光照感知图作为先验约束网络复原结果的对比度。此外,设计了合适的损失函数,引导网络充分学习水下图像和清晰图像间的非线性映射关系,使恢复图像的色调更自然,纹理细节更丰富。对比试验结果证明此方法在主观感知和客观指标上均优于对比算法,消融实验证明所提网络模块和光照感知的有效性。
Abstract
The underwater environment is poorly lit,and it is difficult to image clearly with natural light sources alone. Artificial light sources are necessary to assist the illumination especially for underwater environment. However,inappropriate artificial lighting will lead to uneven brightness of scenes. The quality of the underwater images taken in this hybrid lighting environment with both natural and artificial light sources is severely degraded, which not only affects visual perception,but also poses a challenge to the successful execution of subsequent high-level computer vision tasks. However,most of the existing methods only consider the influence of natural light sources,and are not effective in recovering underwater images under hybrid light source environment. To handle the problems of uneven illumination,color bias and blurry details in underwater images under hybrid light source environments,we propose an Illumination-aware Encoder-Decoder Network(IEDN)for underwater image restoration. On one hand,attention mechanism and enhanced residual block are incorporated into a multi-scale structure to effectively extract detailed structure features. On the other hand,the illumination aware map is introduced as a prior constraint to balance the contrast of the restoration results. Meanwhile,appropriate loss functions are designed to guide the network to fully learn the nonlinear mapping relationship between the underwater image and the ground truth. In this way,the tone of the restored image is more natural and the texture details are more plentiful. The results of the comparison experiments prove that the proposed method is superior to other algorithms both quantitatively and qualitatively. The ablation experiments further demonstrate the effectiveness of the network modules and the illumination aware.