-
0 引言
-
海洋资源作为全球自然资源的重要组成部分,对经济和生态系统具有巨大的价值。随着全球对海洋资源的依赖日益增加,有效地探索和可持续管理显得尤为重要[1]。相比于光学成像技术,声呐成像系统具有穿透能力强、作用距离远、成像帧速率高等优势,能在相对恶劣的条件下更有效地获取水下信息[2]。通过声呐图像的识别和分类,我们可以更精准地了解海洋环境和资源分布,这对海洋资源的开发和军事安全具有重要作用[3]。
-
近年来,声呐图像自动识别技术快速发展,在目标分类[4]、检测[5]和语义分割[6]任务上取得了明显的进步。但是现有的声呐图像分类模型是在封闭的环境中设计的,即所有测试样本的类别都在训练集中出现过[7]。然而水下环境复杂多变,如不稳定的水质、多变的海底地形、复杂的生物活动等因素常常使得获取的数据包含未知类别,限制了传统声呐识别分类模型的性能和泛化能力[8],为声呐识别任务带来了重大挑战。传统的深度学习分类[9]模型通常针对封闭集训练,这意味着它们在训练阶段已经见过所有可能的类别。当面对未知类别时,这些模型往往会错误地将其归类于已知类别中的某一个,因为它们缺乏有效的机制来处理不在训练集中的类别。在这种背景下,模型的开放集识别能力,即对未知类别进行有效分类和识别的能力,变得尤为关键。这一领域的研究突破了传统训练集和测试集类别数相同的局限性,为实现水下复杂的任务提供了依据和手段。
-
尽管开放集识别技术已经取得了一些进展,但现有技术仍存在明显的局限性。例如,一些开放集识别算法,如基于生成对抗网络(GAN)的方法[10]、基于扩散模型(Difussion)的方法[11]以及基于 Transformer 的方法[12],虽然能够生成新的类别以增强模型的泛化能力,但它们在实际应用中往往需要大量的调整和优化,且不适用于实时的识别任务。这些问题限制了这些技术在复杂水下环境中的应用效果。
-
Openmax 算法作为一种简单轻量的开放集识别算法,通过引入对未知类别的显式拒绝机制,能够减少错误识别的概率,提高模型的准确性和可靠性。该算法最初由科罗拉多斯普林斯大学的 BENDALE 和 BOULT 提出[13],并在 ILSVRC 2012 数据集的测试中展现了比传统 Softmax 更高的正确率。此外,Openmax 已被应用于多个领域,如高光谱遥感[14],合成孔径雷达[15]数据分类以及感应系统中的事件识别任务[16],并通过调整关键参数取得了显著的性能提升。
-
针对现有技术在声呐开放集识别问题上的局限性,本研究的目标是开发一种能有效识别和分类未知水下目标的新方法。本文采用 Openmax 分类器解决开放集识别问题,用其代替 Resnet 网络[17]最后的 Softmax 层,该方法结合了深度神经网络与专用于开放集的分类器,可以有效降低未知类别带来的误识风险。研究方法包括对深度学习模型进行改进,使其能在保持高识别精度的同时,拒绝未知类别的识别。
-
1 Openmax 识别任务
-
如图1 所示,本次设计所使用的数据集是 FLSMDD 声呐数据集,包含 2 364 张图像。该数据集由 10 个类别的灰度声呐图像构成,分别是瓶子、罐头、链条、饮料盒、钩子、螺旋桨、洗发水瓶、立式瓶子、轮胎、阀门。如图2 所示,不同类别的图片数量各不相同(65~449 张不等)。由于数据集的数据量较少,为了获取充足的特征,需要选择合适的方法对数据集进行划分。
-
图1 FLSMDD 数据集图像
-
Fig.1 Images of FLSMDD
-
图2 FLSMDD 数据集服从的长尾(LT)分布
-
Fig.2 Long-tail(LT)distribution followed by FLSMDD dataset
-
本研究探讨了声呐图像数据中的长尾少镜头问题,特别是在涉及特定类型目标(如轮船残骸) 时会面临数据稀缺,相比之下,常见的背景目标 (如海床礁石)则数据丰富。这种现象导致了长尾 (LT)分布的出现[18],在实际的声呐识别任务中,也会出现某些类别的样本数量极少,而其他类别样本充足的情况。尽管少样本问题已经得到了广泛研究,长尾问题仍未受到应有的重视。本文使用的 FLSMDD 数据集便展示了这一点,其在互联网上可获得的声呐图像数据集中呈现出明显的长尾特征。
-
为了充分利用 FLSMDD 数据集,也为了充分比较不同分类器的识别能力,本研究采用了 10 次 5 折交叉验证法。具体操作是:将数据集随机均分为 5 部分,其中 4 份用作训练集,剩余 1 份用作测试集,该过程重复 5 次以完成 1 轮验证,共进行 10 轮以全面评估分类器的性能。这种 p 次 k 折交叉验证方法能有效减少随机误差的影响,并提升模型的泛化能力。
-
本文在设计时充分考虑了训练数据对模型性能的影响,随机了选择不同类别数的闭集图像进行训练,旨在减少类别特征和样本数量对训练的影响,同时增强模型面对未知类别时的鲁棒性和泛化能力。这种方法相较于固定类别的测试,增加了模型的普适性和可靠性。此外,由于数据特征较少,本研究在训练过程中使用迁移学习的方法,用预训练的参数初始化主干网络 Resnet18 的参数,使得各个模型能在样本较少和短周期的训练下基本可以获得接近最优的性能。
-
在测试阶段,为了全面和客观评估分类器的性能,本研究采用了多个评估指标,包括准确率、宏观 F1 参数及加权宏观 F1 参数。同时,对开放集的识别能力进行了比较,涵盖了单一的 Softmax 分类器、阈值化 Softmax 分类器以及 Openmax 分类器。除了对整体数据集进行验证,还特别对小批量数据进行了测试,以深入考察分类器的实时性和对数据流的处理能力。这些措施确保了评估的全面性和分类器性能的可靠性。
-
2 基于 Openmax 的开放集识别
-
2.1 多类元识别
-
多类元识别是 Openmax 分类算法的重要组成部分。其输入是正确分类样本在神经网络 Softmax 层之前的激活向量 AVtrain,其中 AVjtrain 是第 j 类正确分类的激活向量集;输出为估计的 Weibull 分布参数 ,用于估计一个输入相对于第 i 类的异常值的概率[19]。
-
首先,元识别算法计算各个类别的平均激活向量 MAVjtrain,该向量可视为正确分类样本集的域中心,距离该中心越远的激活向量属于异常值的概率越大。接下来算法计算了各个类别的平均激活向量 MAV 和与 MAV 的欧几里得距离 ED,并将其排序。随后,元识别算法使用 libMR 库中的 FighHigh 函数拟合 Weibull 分布参数 ,包括位置参数 、形状参数、尺寸参数 ,这些参数将作为下一阶段的输入对 Openmax 分类器进行校准。
-
2.2 OpenMax 概率估计
-
OpenMax 概率估计就是考虑输入图像属于未知类和不确定输入的可能,根据多类元识别的结果调整其特征向量,获得新的特征向量并计算概率的过程。算法的输入包括测试图像的激活向量 MAVtest、元识别得到的激活向量 MAVtrain、Weibull 参数 以及超参数 ;输出为测试图像的概率估计,包括图像属于开放类别的可能。
-
首先,算法将激活向量得分按降序排序,并获得各个类别的索引。接下来,算法计算测试图像得分前 类元素的离群距离 ED,并通过该值计算各类的修正权重 wj。然后,分别计算各个类别的缩放系数(j),给予各个类别不同的类别权重,由于靠前的类别更加重要,因此会获得更大的缩放系数。之后,算法根据权重和缩放系数对激活向量排名前 类的得分进行修正,并在激活向量的最后增加了一维,用于累加激活向量前 N 维修正的得分 unk,以表示图像属于未知或者不确定类的可能性。
-
通过以上步骤,我们得到了新的激活向量,该向量考虑了图像属于未知类或不确定类的可能,通过 Softmax层的归一化处理会生成测试图像的概率分布 sopen。对于一个输入图像,如果在 N+1 维度获得最大的概率,则说明该图像很可能来自未知类,则被拒绝,这样 Openmax 分类器便可以实现开放集的识别。
-
3 模型效果及分析
-
3.1 模型评估指标
-
本文使用的评估指标对分类效果进行评估,包括准确率(Precision),宏观 F1(Macro-F1),加权宏观 F1 参数(weighted Macro-F1)。
-
在图像分类问题上可能包括多种情况,可以表示为混淆矩阵,如图3 所示,单分类的结果包括真正例 (TP),真反例(TN),假正例(FP),假反例(FN)。
-
图3 单分类混淆矩阵
-
Fig.3 Confusion matrix of one-class classification
-
混淆矩阵的定义同样可以推广到开放集识这个多分类问题上,准确率定义为正确预测的正例样本数在总预测的正例样本数中的占比,公式如下:
-
由于分类器可能存在漏检问题,单一的准确率无法衡量分类器的性能,因此本工作还是用了宏观 F1 参数作为指标,为各个类别的 F1 参数的平均值, F1 参数同时考虑了各个类别的准确率和召回率 (Recall)。召回率、F1 参数、宏观 F1 参数的定义如下:
-
由于声呐数据集是不均衡的,即各个类别样本数目差异较大,宏观 F1 参数没有考虑到各个类别的重要性差异,因此本研究还使用了加权宏观 F1 参数作为评估指标,对各个类别的 F1 参数加权平均,定义如下:
-
3.2 分类器小规模分类效果评估
-
为了验证 Openmax 分类器在不同训练阶段的适用性,本文首先进行初步测试,探索其性能。在每个训练周期结束后,利用不同分类器进行效果对比,由于小规模评估为初步测试,故仅以准确率作为评估指标,本研究分别使用 9 类和 8 类样本作为闭集进行数据训练,而全部 10 类样本用于测试。鉴于过小的阈值可能导致闭集类别被错误识别为未知类别,而过大的阈值可能拒绝已知类,本文设定 0.85 为分类阈值。此外,选择了 5 和 4 作为 Weibull 尾长和修正类别数。
-
如图4 所示,无论是使用 Softmax、阈值化 Softmax 还是 Openmax 分类器,分类准确率均随模型的训练而提高,在 epoch=8 后基本达到收敛。此外,不同分类器在开放集的识别能力上存在差异: Softmax 分类器由于未加入未知类别的选项,识别能力最弱;而阈值化 Softmax 和 Openmax 由于具备拒绝未知类的能力,准确率较高。由于单次单折检验的偶然性较大,难以评估 Openmax 与阈值化 Softmax 之间的优劣,故下一节将使用更多数据和性能指标进行多维度分析。为节约计算成本,接下来的评估将限制数据迭代次数为 10 次。
-
图4 分类器小规模分类效果评估结果
-
Fig.4 Evaluation results of small-scale classification
-
3.3 分类效果综合评估
-
为了验证各种分类器在不同开放度(即未知类别在全部类别中的占比)的分类效果,本文分别使用 8 类和 9 类的随机类别训练模型。由于使用 10 次 5 折交叉验证法,因此对分类器的效果评估 50次。评估结果如图5 和图6 所示。
-
图5 class_num=9 的评估结果
-
Fig.5 Evaluation results for class_num=9
-
图6 class_num=8 的评估结果
-
Fig.6 Evaluation results for class_num=8
-
可以看出,无论是采用准确率还是宏观 F1 和加权 F1 参数,当训练类别数(train_class_num)为 9 或 8 时,阈值化 Softmax 和 Openmax 分类器在大多数批次上均表现优异,普遍优于传统的 Softmax 分类器,且 Openmax 分类器的识别效果略高于阈值化 Softmax 分类器。但是某些批次显示出准确率过低,也就是说 Openmax 分类器在某些情况下可能失效。这种失效可能由数据集规模限制或样本数量不足引起,难以提取充足特征;或是由于迭代次数限制,未能优化模型至最优。
-
实验还揭示了分类效果会一定程度地受到开放度的影响。例如,当 train_class_num 为 9 时,阈值化 Softmax 和 Openmax 分类器的准确率通常在 87%~95% 之间, Softmax 分类器的准确率则为 83%~93%,而 train_class_num 为 8 时,这 2 种分类器的准确率略微下降至 83%~93%,而 Softmax 下降至 70%~90%,受到开放度的影响更加显著。这一现象突显了阈值化 Softmax 和 Openmax 分类器相较于传统Softmax 在鲁棒性和准确率上的优势。
-
除了评估整体的分类准确率,本文还注重各个类别的分类状况。图7 展示了 Openmax 分类器的混淆矩阵。
-
图7 FLSMDD 数据集混淆矩阵
-
Fig.7 Confusion matrix of FLSMDD
-
根据混淆矩阵,我们观察到除了一些异常类别 (如阀门和立式瓶子)外,多数长尾类别的识别概率较低,这些类别样本数量有限且特征信息不足,导致分类性能不佳。为了应对长尾数据的影响,可以采用过采样、次数平衡化等方法。过采样通过增加稀有类别的样本数来平衡数据分布,但需避免因重复样本过多而引起过拟合;次数平衡化通过调整分类器的输出,如使用对数变换,以平滑不均衡的影响。此外,通过算法改进也可有效解决长尾问题。例如,引入聚类和半监督学习技术可以提升稀有类别的分类效果,而集成学习通过组合多个模型的预测结果,增强分类器的鲁棒性,降低误差与泛化误差,从而提高模型的整体性能。
-
4 结束语
-
通过设计专门针对水下 FLSMDD 声呐数据集的声呐图像分类任务,系统评估了 Resnet18 网络与 Openmax 分类器在开放集识别中的性能。 Resnet18 网络的应用证明了其在小规模数据集上的高效性和稳定性,尤其在防止过拟合和保持信息完整性方面表现出色。Openmax 分类器通过引入威布尔参数和激活向量调整,有效提升了模型对未知类别的拒绝能力,从而增强了分类系统的鲁棒性。
-
实验结果表明,结合 Openmax 分类器的 Resnet18 网络在处理开放集问题时,相较于传统的 Softmax 和阈值化 Softmax 分类器,能更准确地识别并拒绝未知类别的图像。通过准确率、宏观 F1 和加权宏观 F1 这 3 个评估指标的多轮 5 折交叉验证,本研究不仅验证了模型的效能,还揭示了模型性能受数据集开放度影响的程度。尽管 Openmax 分类器表现出色,但数据分析亦显示了其在处理样本数量较少的类别时容易发生误识别的问题。此外,未来研究可探索将 Openmax 分类器与其他先进的深度学习算法结合,如生成对抗网络,以进一步增强模型的适应性和精度。本研究的成果不仅为水下声呐图像的开放集识别提供了有力的方法论支持,也为其他领域的开放集问题研究提供了可借鉴的策略和见解。
-
参考文献
-
[1] 赵鹏.“十四五”时期我国海洋经济发展趋势和政策取向[J].海洋经济,2022,12(6):1-7.
-
[2] WAITE A D.Sonar for Practising Engineers[M].Beijing:Publishing House of Electronics Industry,2002.
-
[3] 黄海宁,李宇.水声目标探测技术研究现状与展望[J].中国科学院院刊,2019,34(3):264-271.
-
[4] GERG I D,MONGA V.Structural prior driven regularized deep learning for sonar image classification[J].IEEE Transactions on Geoscience and Remote Sensing,2021,60:1-16.
-
[5] ZHU X Y,LIANG Y S,ZHANG J L,et al.STAFNet:Swin Transformer based anchor-free network for detection of forward-looking sonar imagery[C]//2022 International Conference on Multimedia Retrieval.Newark:Association for Computing Machinery,2022.
-
[6] LIANG Y S,ZHU X Y,ZHANG J L.MAANU-Net:multi-level attention and atrous pyramid nested U-Net for wrecked objects segmentation in forward-looking sonar images[C]//2022 IEEE International Conference on Image Processing(ICIP).Bordeaux:IEEE,2022.
-
[7] HUANG H,WANG Y,HU Q H,et al.Class-specific semantic reconstruction for open set recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,45(4):4214-4228.
-
[8] 孙祥远.开放集图像识别技术研究[D].湖南:国防科技大学,2019.
-
[9] LAVINIA Y,VO H H,VERMA A.Fusion based deep CNN for improved large-scale image action recognition[C]//2016 IEEE International Symposium on Multimedia(ISM).San Jose:IEEE,2016.
-
[10] PERERA P,MORARIU V I,JAIN R,et al.Generative-discriminative feature representations for open-set recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE,2020.
-
[11] WANG W Y,DOU Z,FU J Z,et al.A diffusion model-based open set identification method for specific emitters[C]//2023 IEEE/CIC International Conference on Communications in China(ICCC).Dalian:IEEE,2023.
-
[12] GUPTA A,NARAYAN S,JOSEPH K J,et al.OW-DETR:open-world detection transformer[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans:IEEE,2022.
-
[13] BENDALE A,BOULT T E.Towards open set deep networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016.
-
[14] GIUSTI E,GHIO S,OVEIS A H.Proportional similarity-based Openmax classifier for open set recognition in SAR images[J].Remote Sensing,2022,14(18):4665.
-
[15] GIUSTI E,GHIO S,OVEIS A H.Open set recognition in synthetic aperture radar using the Openmax classifier[C]//2022 IEEE Radar Conference(RadarConf22).New York City:IEEE,2022.
-
[16] ZHOU Z X,JIAO W Y,HU X,et al.Open set event recognition model using 1-D RL-CNN with Openmax algorithm for distributed optical fiber vibration sensing system[J].IEEE Sensors Journal,2023,23(12):12817-12827.
-
[17] HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016.
-
[18] JIAO W P,ZHANG J L.Sonar images classification while facing long-tail and few-shot[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:1-20.
-
[19] 曲延碌,张程道,阎书源.三参数Weibull分布的参数估计[J].气象学报,1987,44(3):374-378.
-
摘要
在人工智能技术快速发展的背景下,开放集识别作为一个新兴的问题领域受到广泛研究。本研究对 FLSMDD 声呐数据集进行了开放集识别任务的设计,旨在评估 Openmax 算法处理未知类别样本的能力,并与传统 Softmax 及其阈值化变体进行比较。研究通过结合残差网络和迁移学习技术,测试了不同算法在分类准确性和鲁棒性方面的表现。结果显示:Openmax 算法在整体准确率上比 Softmax 提高 5%,宏观 F1 参数提升了 7%,加权 F1 宏观参数提高了 6%,这表明其在处理未知类别的适应性和鲁棒性方面具有显著优势。未来研究将探索优化算法设计,以进一步提高识别精度和处理效率。本研究为开放集识别技术的发展提供了有力证据,也为深度学习在更广泛的分类问题中的应用奠定了理论和实验基础。
Abstract
With the rapid development of artificial intelligence technology,open-set recognition has been widely studied as an emerging field of classification problems. In this study,an open-set recognition task for the FLSMDD sonar dataset is designed to evaluate the ability of the Openmax algorithm to handle unknown class samples. Then it is compared with traditional Softmax algorithm and its thresholded variants. By combining residual networks and transfer learning techniques,the performance of different algorithms in terms of classification accuracy and robustness is tested. The results show that the Openmax algorithm has an overall accuracy improvement of 5% compared with Softmax,a macro-F1 improvement of 7%,and a weighted Macro-F1 increase of 6%,indicating that it has significant advantages in adaptability and robustness in handling unknown categories. Future research will explore optimizing algorithm to further improve recognition accuracy and processing efficiency. This study provides strong evidence for the development of open-set recognition technology and lays a theoretical and experimental foundation for the application of deep learning in a wider range of classification problems.