en
×

分享给微信好友或者朋友圈

使用微信“扫一扫”功能。
作者简介:

庄英豪(1995-),男,博士,主要从事水下航行器智能控制研究。

通讯作者:

李沂滨(1981-),男,博士,教授,主要从事机械设备智能故障诊断、水下航行器智能控制研究。

中图分类号:TP18

文献标识码:A

文章编号:2096-5753(2024)05-0464-07

DOI:10.19838/j.issn.2096-5753.2024.05.001

参考文献 1
陈驰,吴刚,贾洞洞,等.科考型自主无人潜航器在极地的应用以及未来发展趋势[J].船舶,2024,35(1):59-69.
参考文献 2
孙玉山,冉祥瑞,张国成,等.智能水下机器人路径规划研究现状与展望[J].哈尔滨工程大学学报,2020,41(8):1111-1116.
参考文献 3
孙玉山,王力锋,吴菁,等.智能水下机器人路径规划方法综述[J].舰船科学技术,2020,42(7):1-7.
参考文献 4
燕奎臣,吴利红.AUV 水下对接关键技术研究[J].机器人,2007,29(3):267-273.
参考文献 5
LI B,XU Y X,FAN S S,et al.Autonomous underwater vehicle docking system for cabled ocean observatory network[J].Ocean Engineering,2015,109(15):127-134.
参考文献 6
FAN S S,LI B,XU W,et al.Impact of current disturbances on AUV docking:model-based motion prediction and countering approaches[J].IEEE Journal of Oceanic Engineering,2018,43(4):888-904.
参考文献 7
杨光仪.自主水下航行器近水面的预测控制策略研究[D].哈尔滨:哈尔滨工程大学,2024.
参考文献 8
李修宇.欠驱动自主水下航行器近水面运动控制研究[D].武汉:武汉理工大学,2020.
参考文献 9
王亚兴.AUV 的水动力优化及近水面运动性能研究 [D].哈尔滨:哈尔滨工程大学,2024.
参考文献 10
高国章,李修宇.基于预测控制的水下自航器抗海浪变深控制分析[J].船舶工程,2020,42(6):91-97.
参考文献 11
HUANG F,XU J,YIN L G,et al.A general motion control architecture for an autonomous underwater vehicle with actuator faults and unknown disturbances through deep reinforcement learning[J].Ocean engineering,2022,263:112424.
参考文献 12
ZHANG T Z,MIAO X H,LI Y B,et al.AUV surfacing control with adversarial attack against DLaaS framework[J].IEEE Transactions on Computers,2021,73(2):327-339.
参考文献 13
李茹.基于TD3的 AUV 智能控制方法研究[D].济南:山东大学,2021.
参考文献 14
LIU Z J,HAN Z J,ZHAO Z J,et al.Modeling and adaptive control for a spatial flexible spacecraft with unknown actuator failures[J].Information Science,2021,64:152208.
参考文献 15
ZARKASI A,ANGKOTASAN I J,RAVI M A,et al.Design heading control for steering AUV with fuzzy logic[J].Advances in Intelligent Systems Research,2020,10:200424.
参考文献 16
ZHENG J Q,SONG L,LIU L Y,et al.Fixed-time sliding mode tracking control for autonomous underwater vehicles[J].Applied Ocean Research,2021,117:102928.
参考文献 17
刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2018,41(1):1-27.
参考文献 18
KARIMI M,AHMADI M.A reinforcement learning approach in assignment of task priorities in kinematic control of redundant robots[J].IEEE Robotics and Automation Letters,2021,7(2):850-857.
参考文献 19
JIANG P,SONG S J,HUANG G.Attention-based meta-reinforcement learning for tracking control of AUV with time-varying dynamics[J].IEEE Transactions on Neural Networks and Learning Systems,2021,33(11):6388-6401.
参考文献 20
CHEN W H,YANG J,GUO L,et al.Disturbanceobserver-based control and related methods—an overview[J].IEEE Transactions on Industrial Electronics,2015,63(2):1083-1095.
参考文献 21
SCHULMAN J,WOLSKI F,DHARIWAL P,et al.Proximal policy optimization algorithms[EB/OL].[2017-08-28].https://doi.org/10.48550/arXiv.1707.06347.
参考文献 22
施生达.潜艇操纵性[M].北京:国防工业出版社,2021.
参考文献 23
FOSSEN T I.Handbook of Marine Craft Hydrodynamics and Motion Control[M].Trondheim:Wiley,2016.
参考文献 24
ZHANG T Z,MIAO X H,LI Y B,et al.AUV 3D docking control using Deep Reinforcement Learning[J].Ocean Engineering,2023,283:115021.
参考文献 25
崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14,69.
参考文献 26
CHENG Y H,HUANG L Y,WANG X S.Authentic boundary proximal policy optimization[J].IEEE Transactions on Cybernetics,2021,52(9):9428-9438.
目录contents

    摘要

    自主式水下航行器(AUV)是人类探索和利用海洋的重要装备,能否足够智能化地解决路径规划控制问题是 AUV 完成其它复杂任务的基础。考虑终端姿态约束下的局部路径规划问题,结合 AUV 的自主对接控制这一实际使用场景,基于改进的深度强化学习算法(DRL)开发了一种对接控制器,使其具备自主对接能力,延长其续航时间。考虑实际工作场景中的复杂海浪干扰因素,使用了非线性扰动观测器(NDO) 来估计 AUV 三维运动中各自由度的外部扰动,并结合可测量的状态量为 DRL 智能体设计了科学的观测量及奖励函数,使 AUV 能够在扰动环境中完成三维对接控制任务。仿真结果表明了该方法的有效性和鲁棒性。

    Abstract

    Autonomous underwater vehicles(AUVs)is an important kind of equipment for human to explore and utilize the ocean. Intelligent solution of path planning and control is the basis for an AUV to accomplish other complex tasks. Considering the local path planning problem under terminal attitude constraint and combining with AUV autonomous docking control,a docking controller is developed based on the improved Deep Reinforcement Learning(DRL)algorithm. It enables the AUV to dock autonomously and can increase AUV endurance. Considering the complex wave disturbance factors in the practical operating scenario,a nonlinear disturbance observer(NDO) is used to estimate the external disturbances of each degree of freedom in AUV three-dimensional motion. In order to ensure that the AUV can accomplish the three-dimensional docking control task in a disturbed environment,scientific observation quantities and reward functions are designed for the DRL agent in combination with measurable state quantities. Simulation results demonstrate the effectiveness and robustness of the proposed method.

  • 0 引言

  • 自主式水下航行器(AUV)在海洋探索、科学研究和军事任务等领域中发挥着重要作用[1]。在完成各类复杂任务的过程中,完成局部路径规划控制是 AUV 的核心及基础控制任务之一[2]。由于 AUV 一般工作于伴有复杂海浪干扰的水下环境,且能否以合适的姿态到达预定的目标区域是其安全性及智能化的重要体现[3],因此,本文将考虑海浪干扰下考虑终端姿态约束的 AUV 局部路径规划控制这一科学问题,结合 AUV 三维对接控制这一实际任务场景展开研究。

  • 由于 AUV 携带的能源有限,其连续作业能力受到限制[4]。因此,设计对接站以提供能量补给,以延长 AUV 的续航时间变得尤为重要。传统的对接控制方法在面对复杂的海洋扰动环境时,难以保证高鲁棒性和高精度的对接性能[5-6]。在海洋环境中,AUV 的自主对接控制受到诸多因素的影响,如海浪、洋流和风的扰动,其中在近水面区域 AUV 受到的主要干扰是海浪干扰,如何在海浪干扰下成功实现 AUV 智能控制也是目前众多研究人员关心的重点。文献[7]对欠驱动 AUV 扰动状态下的非线性系统的预测控制策略进行了研究,提出了基于状态观测器的预测控制策略,在进行 AUV 近水面运动建模时主要考虑了近水面波浪干扰建模。文献[8] 研究了近水面航行的 AUV 运动控制问题,同样将海浪干扰作为影响 AUV 近水面不稳定运动的主要干扰进行建模。文献[9]基于势流理论方法模拟 AUV 在不同潜深下的迎波和斜波航行,观察 AUV 遭遇不同条件波浪时的受力变化,从而研究 AUV 在不同潜深下以不同角度做斜波航行时受力的变化。文献[10]使用了带无迹卡尔曼滤波器的预测控制器快速、准确地实现了 AUV 的深度跟踪控制与姿态控制,其中在近水面区域控制过程中重点考虑了海浪干扰的影响。文献[11]研究了深度强化学习在执行器故障和未知干扰的欠驱动 AUV 运动控制任务中的应用,其中将海浪干扰作为 AUV 外部受到的主要干扰。此外,传统的控制方法,如比例– 积分–微分(Proportional-integral-differential,PID) 控制、鲁棒控制和基于模型的控制方法,虽然在一定程度上能够实现对接控制,但是由于 AUV 工作环境具有建模困难,训练数据量较少以及扰动变化迅速等特点,性能往往难以令人满意[12]。尤其是在扰动不确定性和系统模型难以精确获取的情况下,传统方法的鲁棒性和适应性受到很大限制[13]。自适应控制器对系统模型的依赖较小,需要的先验知识也较少,但一些自适应控制器在起始过程或过渡过程中的动态性能并不符合 AUV 控制的实际要求[14]。一些研究者将模糊逻辑引入到 AUV 运动控制器的设计中,得到了一种不依赖数学模型、易于工程实现的控制器,但模糊规则的设计需要大量的先验知识,难度较大[15]。滑模控制方法由于其响应速度快、对外部干扰具有较强的鲁棒性等优点,在 AUV 运动控制中得到了广泛应用,但是也存在抖动现象很难消除的问题[16]

  • 近年来,深度强化学习(Deep Reinforcement Learning,DRL)作为一种无模型控制方法[17],因其在不确定环境下的自适应能力,得到了广泛的关注和应用[18]。DRL 通过与环境的交互学习,能够在没有精确系统模型的情况下,获得最优控制策略。在海洋环境中,由于海浪、洋流等扰动因素的存在,使用 DRL 进行对接控制具有显著的优势[19]

  • 在本文中,我们提出了一种基于深度强化学习的 AUV 对接控制方法,并结合非线性扰动观测器(Nonlinear Disturbance Observer,NDO)来估计外部扰动,提高系统的鲁棒性和对扰动的适应能力[20]。通过自适应回滚裁切近端策略优化 (Proximal Policy Optimization,PPO)算法[21],我们能够动态调整策略更新范围,增强学习效果。仿真结果表明:该方法在复杂扰动环境下具有良好的对接性能和鲁棒性。

  • 1 AUV 对接控制任务建模

  • 1.1 AUV 动态模型

  • 为了描述 AUV 在三维空间中的运动状态,有必要在合适的坐标系中建立 AUV 的运动学及动力学方程。本文按照右手系定义了如图1 所示的 2 个坐标系,即惯性坐标系 E-ξηζ以及载体坐标系 O-xyz [22]。根据 Fossen 的理论[23],假设欠驱动 AUV 质量分布均匀且纵向完全对称,其在载体坐标系下绕 x 轴方向具备恢复力矩,其绕 x 轴的滚动运动可以忽略。则 ν={uvwqr}可用于描述 AUV 在载体坐标系中的速度向量。式中:uvw 分别是浪涌、横移和升沉速度;qr 分别是俯仰和偏航速度。η={ξηζθψ}可用于描述 AUV 在惯性坐标系中的状态向量。式中:ξηζ 是位置坐标;θψ 是俯仰和偏航角。则其五自由度 (5-DOF)动态模型可以描述如下:

  • Mv+C(v)v+D(v)v+g(η)=τf+d
    (1)
  • 式中:M 是惯性矩阵;Cν)是科氏向心力矩阵; Dν)是流体阻尼矩阵;gη)是重力和浮力的影响;τf 是执行器的力和力矩;d 是由波浪引起的扰动。动态模型的参数采用[12]中的设置。

  • 图1 AUV 在惯性坐标系与载体坐标系内的运动

  • Fig.1 AUV motion in inertial and vehicle coordinate systems

  • 基于以上理论,AUV 的五自由度运动学方程以及五自由度动力学方程的形式可以表示为

  • ξ˙=ucosψcosθ-vsinψ+wcosψsinθη˙=usinψcosθ+vcosψ+wcosψsinθζ˙=-usinθ+wcosθθ˙=qψ˙=r/cosθ
    (2)
  • m-Xu˙u˙=fu+X(uu|)|u|u+Xuuu2+Xvvv2+Xwww2+Xqqq2m-Yv˙v˙=Yδru2δr+Y(v|v|)|v|+Yr˙r˙-m-Yurur+Yvuvm-Zw˙w˙=Zδsu2δs+Z(ww|)|w|w+Zq˙q˙+Zwuw-m-ZquqIy-Mq˙q˙=Mδsu2δs+M(q|q|)|q|q+Mw˙w˙-Mquq-Mwuw-zg-zbsinθ-mzg(wq-vr)Iz-Nr˙r˙=Nδru2δr+N(r|r|)|r|r+Nv˙v˙+Nrur+Nvuv
    (3)
  • 1.2 对接几何关系

  • AUV 的对接控制行为可以通过将其三维运动投影到穿过对接坞站中心轴 PG 的平面上来进行几何化的描述[24],如图2 所示。

  • 图2 AUV 与对接坞站的几何关系

  • Fig.2 Geometric relationship between AUV and docking station

  • 在如图2 的任意投影平面中,漏斗形的对接坞站可以被认为是一个等腰三角形 PAB。其中,Rd 是入口的半径;yf 是 AUV 头部到 PG 的距离;ψf 是 AUV 中心轴与 PG 之间的角度;ϑ是剖面角 ∠PAB;dr 是从 O P 的距离;dc 是从 OG 的距离;ψg 是 AUV 与最终期望姿态之间的角度;ψc 是到 P 的导航角度。考虑到对接坞站的喇叭形状具有引导作用,则 AUV 与对接坞站的成功对接应满足以下条件:

  • Δyf<Rd-Rd'
    (4)
  • Δψf<ϑ-ϑ'
    (5)
  • 式中,Rd'ϑ'是安全裕度。该条件即构成了 AUV 与对接坞站进行三维对接的控制约束。

  • 2 基于强化学习的对接控制方法

  • AUV 的对接控制过程可以描述为一个马尔可夫决策过程(MDP)[25]。通过构造一个四元组 <SAPrγ>可以描述该 MDP 的状态转移过程,其中 SA 分别表示状态空间和动作空间, sSaAPS×A×SR 是状态转移概率分布, γ∈(0,1)是折扣因子,rS×AR 是转移奖励。基于 DRL 的控制算法的目标是通过训练智能体使其获得一个最优策略 π(a|s),建立起从状态 s到动作 a 的端到端的映射,以最大化累积折扣奖励的期望。

  • 其用于评估 MDP 中的(sa)价值的状态– 动作值函数,及用于状态 s 价值的状态值函数定义如下:

  • Qπ(s,a)=EπΣk=0γkrst+k,at+kst=s,at=a
    (6)
  • Vπ(s)=EπΣk=0γkrst+k,at+kst=s
    (7)
  • PPO 的优势函数和目标函数可以定义为

  • Aπ(s,a)=Qπ(s,a)-Vπ(s)
    (8)
  • JPPO(ϖ)=Estρπold ,atπoldclipPPOρt(ϖ)Aπσold(s,a)
    (9)
  • PPO 算法中对新旧策略网络概率比的裁切形式如下所示:

  • clipPPOρt(ϖ)=1-ε,ρt(ϖ)1-ε1+ε,,ρt(ϖ)1+ερt(ϖ), otherwise
    (10)
  • 式中,ρtϖ=πϖnew atstπϖold atst表示新旧策略网络概率分布的比值,两者比值过大意味着网络进行了较大程度的更新,可能会导致智能体不稳定的训练效果。

  • 2.1 自适应回滚裁切

  • 在传统的 PPO 算法中,固定的裁切范围可能会导致策略网络更新幅度不合适,进而影响学习效果[26]。为了增强学习能力,本研究提出了一种自适应可靠边界回滚(Adaptive Rollback within Authentic Boundary,ARAB)裁切机制,通过智能体在训练过程中的表现,动态地调整新旧策略网络概率比裁切边界以改进策略网络的更新。

  • 具体来说,真实裁切边界如下:

  • πϖnew atst-πϖold atstεπϖnewatst
    (11)
  • 基于该真实裁切边界,本文基于 Sigmoid 函数提出了自适应 υtc)函数,其中 tc 是最近 100 个回合中的任务完成次数:

  • vtc=1-11+e-0.1tc
    (12)
  • 基于该函数,本文提出了自适应回滚裁切机制,其作用方式如下所示:

  • clipARABρt(ϖ)=-vtcρt(ϖ)+vtc+11+ε,ρt(ϖ)11+ε-vtcρt(ϖ)+vtc+11-ε,ρt(ϖ)11-ερt(ϖ), otherwise
    (13)
  • 该机制的作用效果如图3 所示。

  • 图3 真实边界自适应回滚裁切对策略概率比的影响

  • Fig.3 Effect of ARAB on probability ratio between new and old policies

  • 图3 表明:当智能体在训练过程中取得较高成功率时,裁切函数的上界将接近常数,限制了损失函数的变化范围,即限制了策略网络的过大更新。当训练过程中的成功率变低时,裁切函数的变化范围将扩大,策略网络的更正范围也将跟着扩大,进而鼓励智能体进一步探索。

  • 2.2 非线性扰动观测器

  • AUV 的工作环境通常较为恶劣且伴随着复杂的海浪干扰,考虑到海浪干扰对 AUV 五自由度三维运动的影响,本文通过在每个运动自由度上设置相应的 NDO 来对海浪干扰的影响进行估计。其中,根据公式(1),每个 NDO 对相应自由度上干扰的估计值d^以及其微分可以表示为

  • d^˙=K0(d-d^)=-K0d^+K0Mv˙+C(v)v+D(v)v-τf
    (14)
  • 式中,K0 是正定对角矩阵。辅助变量 β 定义为

  • β=d^-K0Mv
    (15)
  • 因此,d^β 的微分可表示为

  • d^=β+K0Mvβ˙=-K0β-K0-C(v)v-D(v)v+τf+K0Mv
    (16)
  • 通过迭代公式(16),可以获得 NDO 对干扰 d 的估计值。

  • 总结 AUV 的可观测状态、任务所需的观测值以及 NDO 对扰动的估计,最终状态空间 S 可以设计为如下形式:

  • S=θ,ψ,f,δ1,δ2,dr,dy,ψc,ψg,d^
    (17)
  • 考虑到一艘带有艉推进器、1 对水平舵和 1 对垂直舵的典型欠驱动 AUV,其动作空间可以定义为 A={fδ1δ2}。式中:f 是推进器的输出;δ1δ2 是 2 组控制舵的角度。奖励函数 R 定义如下:

  • R=α1Δdr+α2Δdy+α3Δψc+α4Δψg
    (18)
  • 式中:α1~4 为各奖励分量权重;Δ·表示相邻时间步之间的值变化。

  • 3 仿真与结果

  • 在仿真环节中,本文设置了一个空间尺寸为 100 m×100 m×100 m 的虚拟三维水池仿真环境。其中,对接坞站的外形尺寸及对接安全冗余参数 RdR'd 分别设置为 0.6 m 和 0.05 m,ϑϑ'分别设置为 60°和 15°。欠驱动 AUV 的起始点设置在距离对接坞站北方向 100 m 远的某个随机位置,且其初始姿态角度随机。最大时间步数限制为 1 000, AUV 在该限制内以式(4)和式(5)中提到的姿态约束最终到达对接坞站视为对接成功,否则视为对接失败。

  • 在每一回合中,为了模拟复杂海浪干扰对 AUV 产生的 5 个自由度产生的影响,仿真设置了由多个子谐波叠加生成的随机扰动,其形式如下:

  • dj=Σi=1nζijsin2π/Tijt+φij
    (19)
  • 式中:ζij是第 i 个子波在第 j 个回合中的子谐波幅度,其分布为ζijU-5,5Tij 是子谐波周期,其分布为TijU5,200φij是子谐波的初始相位,其分布为φijU-ππ。基于以上设定,最终可以得到海浪在 AUV 各自由度的干扰以及 NDO 对扰动的估计结果,如图4 所示。

  • 图4 海浪对 AUV5 个自由度运动的影响及 NDO 对干扰的估计

  • Fig.4 Effect of waves on AUV 5-DOF motion and NDO estimation of disturbance

  • 本研究在仿真中比较了使用提出的 PPO 和 ARAB 机制的 PPO 算法的性能。图5 显示了 2 种 DRL 算法在训练中的奖励曲线。在图6 和图7 中显示了 AUV 在该对接过程中的三维和二维轨迹。

  • 图5 2 种 DRL 算法在训练中的奖励曲线

  • Fig.5 Reward curves of 2 DRL algorithms in training

  • 图6 基于 ARAB-PPO 控制算法得到的 AUV 三维对接轨迹

  • Fig.6 AUV 3D docking trajectory obtained based on ARAB-PPO control algorithm

  • 图7 AUV 对接轨迹在二维平面内的投影

  • Fig.7 Projection of AUV docking trajectory in 2D plane

  • 如图5 中的奖励曲线所示,本文所提出的 ARAB-PPO 具有更快的收敛速度,以及经过训练有着更高的总奖励表现。并且在 DRL 智能体收敛后表现出了更好的鲁棒性。如图4 所示,NDO 提供了更准确的扰动估计,并最终以观测量的形式输入给智能体,有助于 AUV 对接控制器获得未知的外部扰动信息。从图6 和图7 可以看出,AUV 在模拟海浪扰动下最终到达了对接站,并且满足了对接约束,解决了终端姿态约束的局部路径规划问题。

  • 本文还测试了训练后的 DRL 智能体表现,来验证控制器的有效性。具体来说,本文使用了图5 中训练收敛后的 2 个 DRL 智能体对接控制器。并测试了 1 000 次对接中的对接成功率以及平均消耗的时间步数,每次测试中的 AUV 初始位置随机,初始姿态角随机,生成的海浪干扰随机。其具体统计结果表现如表1 所示。

  • 表1 AUV 对接控制器表现

  • Table1 AUV docking controller performance

  • 从表1 的统计结果中可以看出,本文所提出的 ARAB-PPO 控制算法在训练后有着更高的对接成功率,在随机干扰环境中表现出了更好的鲁棒性。另外,本文所提出的方法相对于 PPO 算法消耗了更少的平均时间步数,表现出了更高效的对接效率。

  • 4 结束语

  • 在本文中,我们使用具有非线性扰动观测器的 DRL 控制器,在随机海浪扰动环境下完成了欠驱动 AUV 的三维对接控制。其中,本研究针对 PPO 算法中新旧策略网络概率比机械性裁切导致网络更新不适宜问题,提出了在真实边界内的自适应回滚裁切机制,其能够随着智能体训练的进行,根据训练效果动态调整裁切边界以提高 PPO 的学习能力。仿真结果表明:非线性扰动观测器可以提供较为准确的扰动估计。此外,我们提出的 ARAB-PPO 算法加速了 DRL 智能体的收敛速度,并在测试阶段提高了控制器的鲁棒性及控制效率。

  • 参考文献

    • [1] 陈驰,吴刚,贾洞洞,等.科考型自主无人潜航器在极地的应用以及未来发展趋势[J].船舶,2024,35(1):59-69.

    • [2] 孙玉山,冉祥瑞,张国成,等.智能水下机器人路径规划研究现状与展望[J].哈尔滨工程大学学报,2020,41(8):1111-1116.

    • [3] 孙玉山,王力锋,吴菁,等.智能水下机器人路径规划方法综述[J].舰船科学技术,2020,42(7):1-7.

    • [4] 燕奎臣,吴利红.AUV 水下对接关键技术研究[J].机器人,2007,29(3):267-273.

    • [5] LI B,XU Y X,FAN S S,et al.Autonomous underwater vehicle docking system for cabled ocean observatory network[J].Ocean Engineering,2015,109(15):127-134.

    • [6] FAN S S,LI B,XU W,et al.Impact of current disturbances on AUV docking:model-based motion prediction and countering approaches[J].IEEE Journal of Oceanic Engineering,2018,43(4):888-904.

    • [7] 杨光仪.自主水下航行器近水面的预测控制策略研究[D].哈尔滨:哈尔滨工程大学,2024.

    • [8] 李修宇.欠驱动自主水下航行器近水面运动控制研究[D].武汉:武汉理工大学,2020.

    • [9] 王亚兴.AUV 的水动力优化及近水面运动性能研究 [D].哈尔滨:哈尔滨工程大学,2024.

    • [10] 高国章,李修宇.基于预测控制的水下自航器抗海浪变深控制分析[J].船舶工程,2020,42(6):91-97.

    • [11] HUANG F,XU J,YIN L G,et al.A general motion control architecture for an autonomous underwater vehicle with actuator faults and unknown disturbances through deep reinforcement learning[J].Ocean engineering,2022,263:112424.

    • [12] ZHANG T Z,MIAO X H,LI Y B,et al.AUV surfacing control with adversarial attack against DLaaS framework[J].IEEE Transactions on Computers,2021,73(2):327-339.

    • [13] 李茹.基于TD3的 AUV 智能控制方法研究[D].济南:山东大学,2021.

    • [14] LIU Z J,HAN Z J,ZHAO Z J,et al.Modeling and adaptive control for a spatial flexible spacecraft with unknown actuator failures[J].Information Science,2021,64:152208.

    • [15] ZARKASI A,ANGKOTASAN I J,RAVI M A,et al.Design heading control for steering AUV with fuzzy logic[J].Advances in Intelligent Systems Research,2020,10:200424.

    • [16] ZHENG J Q,SONG L,LIU L Y,et al.Fixed-time sliding mode tracking control for autonomous underwater vehicles[J].Applied Ocean Research,2021,117:102928.

    • [17] 刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2018,41(1):1-27.

    • [18] KARIMI M,AHMADI M.A reinforcement learning approach in assignment of task priorities in kinematic control of redundant robots[J].IEEE Robotics and Automation Letters,2021,7(2):850-857.

    • [19] JIANG P,SONG S J,HUANG G.Attention-based meta-reinforcement learning for tracking control of AUV with time-varying dynamics[J].IEEE Transactions on Neural Networks and Learning Systems,2021,33(11):6388-6401.

    • [20] CHEN W H,YANG J,GUO L,et al.Disturbanceobserver-based control and related methods—an overview[J].IEEE Transactions on Industrial Electronics,2015,63(2):1083-1095.

    • [21] SCHULMAN J,WOLSKI F,DHARIWAL P,et al.Proximal policy optimization algorithms[EB/OL].[2017-08-28].https://doi.org/10.48550/arXiv.1707.06347.

    • [22] 施生达.潜艇操纵性[M].北京:国防工业出版社,2021.

    • [23] FOSSEN T I.Handbook of Marine Craft Hydrodynamics and Motion Control[M].Trondheim:Wiley,2016.

    • [24] ZHANG T Z,MIAO X H,LI Y B,et al.AUV 3D docking control using Deep Reinforcement Learning[J].Ocean Engineering,2023,283:115021.

    • [25] 崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14,69.

    • [26] CHENG Y H,HUANG L Y,WANG X S.Authentic boundary proximal policy optimization[J].IEEE Transactions on Cybernetics,2021,52(9):9428-9438.

  • 参考文献

    • [1] 陈驰,吴刚,贾洞洞,等.科考型自主无人潜航器在极地的应用以及未来发展趋势[J].船舶,2024,35(1):59-69.

    • [2] 孙玉山,冉祥瑞,张国成,等.智能水下机器人路径规划研究现状与展望[J].哈尔滨工程大学学报,2020,41(8):1111-1116.

    • [3] 孙玉山,王力锋,吴菁,等.智能水下机器人路径规划方法综述[J].舰船科学技术,2020,42(7):1-7.

    • [4] 燕奎臣,吴利红.AUV 水下对接关键技术研究[J].机器人,2007,29(3):267-273.

    • [5] LI B,XU Y X,FAN S S,et al.Autonomous underwater vehicle docking system for cabled ocean observatory network[J].Ocean Engineering,2015,109(15):127-134.

    • [6] FAN S S,LI B,XU W,et al.Impact of current disturbances on AUV docking:model-based motion prediction and countering approaches[J].IEEE Journal of Oceanic Engineering,2018,43(4):888-904.

    • [7] 杨光仪.自主水下航行器近水面的预测控制策略研究[D].哈尔滨:哈尔滨工程大学,2024.

    • [8] 李修宇.欠驱动自主水下航行器近水面运动控制研究[D].武汉:武汉理工大学,2020.

    • [9] 王亚兴.AUV 的水动力优化及近水面运动性能研究 [D].哈尔滨:哈尔滨工程大学,2024.

    • [10] 高国章,李修宇.基于预测控制的水下自航器抗海浪变深控制分析[J].船舶工程,2020,42(6):91-97.

    • [11] HUANG F,XU J,YIN L G,et al.A general motion control architecture for an autonomous underwater vehicle with actuator faults and unknown disturbances through deep reinforcement learning[J].Ocean engineering,2022,263:112424.

    • [12] ZHANG T Z,MIAO X H,LI Y B,et al.AUV surfacing control with adversarial attack against DLaaS framework[J].IEEE Transactions on Computers,2021,73(2):327-339.

    • [13] 李茹.基于TD3的 AUV 智能控制方法研究[D].济南:山东大学,2021.

    • [14] LIU Z J,HAN Z J,ZHAO Z J,et al.Modeling and adaptive control for a spatial flexible spacecraft with unknown actuator failures[J].Information Science,2021,64:152208.

    • [15] ZARKASI A,ANGKOTASAN I J,RAVI M A,et al.Design heading control for steering AUV with fuzzy logic[J].Advances in Intelligent Systems Research,2020,10:200424.

    • [16] ZHENG J Q,SONG L,LIU L Y,et al.Fixed-time sliding mode tracking control for autonomous underwater vehicles[J].Applied Ocean Research,2021,117:102928.

    • [17] 刘全,翟建伟,章宗长,等.深度强化学习综述[J].计算机学报,2018,41(1):1-27.

    • [18] KARIMI M,AHMADI M.A reinforcement learning approach in assignment of task priorities in kinematic control of redundant robots[J].IEEE Robotics and Automation Letters,2021,7(2):850-857.

    • [19] JIANG P,SONG S J,HUANG G.Attention-based meta-reinforcement learning for tracking control of AUV with time-varying dynamics[J].IEEE Transactions on Neural Networks and Learning Systems,2021,33(11):6388-6401.

    • [20] CHEN W H,YANG J,GUO L,et al.Disturbanceobserver-based control and related methods—an overview[J].IEEE Transactions on Industrial Electronics,2015,63(2):1083-1095.

    • [21] SCHULMAN J,WOLSKI F,DHARIWAL P,et al.Proximal policy optimization algorithms[EB/OL].[2017-08-28].https://doi.org/10.48550/arXiv.1707.06347.

    • [22] 施生达.潜艇操纵性[M].北京:国防工业出版社,2021.

    • [23] FOSSEN T I.Handbook of Marine Craft Hydrodynamics and Motion Control[M].Trondheim:Wiley,2016.

    • [24] ZHANG T Z,MIAO X H,LI Y B,et al.AUV 3D docking control using Deep Reinforcement Learning[J].Ocean Engineering,2023,283:115021.

    • [25] 崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14,69.

    • [26] CHENG Y H,HUANG L Y,WANG X S.Authentic boundary proximal policy optimization[J].IEEE Transactions on Cybernetics,2021,52(9):9428-9438.