半潜式航行体回收辅助操控技术应用
作者:
作者简介:

万骏(1990-),男,硕士,工程师,主要从事控制算法研究。

中图分类号:

TJ67


Application of Auxiliary Control Technology for Semi-submersible Vehicle Recovery
Author:
  • 摘要
  • | |
  • 访问统计
  • |
  • 参考文献 [22]
  • |
  • 相似文献 [2]
  • | | |
  • 文章评论
    摘要:

    半潜式航行体回收过程耗时较长,对操纵者经验、技术门槛高,试错成本大。针对此问题提出 VH-PPO 算法,从收敛性、期望收敛时间的上下界、时间复杂度 3 个方面分析其性能。通过人工操控成功的历史数据给予初始概率分布并在此基础上进行训练,省去了自由探索不断试错的过程,可有效减小期望收敛时间,使训练模型更快地收敛,从而降低算法的时间复杂度。针对训练时不同的阶段,选择更优的超参数,防止超调和欠调现象,可帮助训练模型更好地收敛,降低期望收敛时间的上下界,从而降低算法的时间复杂度。 在 OpenAI Gym 上通过该算法进行强化学习,训练完成后应用于操控软件,在某海域进行验证并进一步调整模型。实验结果表明:随着试验次数增加,智能体在真实环境中的适应能力越来越好,辅助操控指令在总操控指令中占比超过 50%,有效地减缓了操纵者的疲劳,降低了新手训练难度及替换操纵者的门槛。

    Abstract:

    The recovery process of semi-submersible vehicles takes a long time,requires a high level of experience and technology of the operator,and the cost of trial and error is high. The VH-PPO algorithm is proposed to address this issue,and its performance is analyzed from three aspects,which are convergence,upper and lower bounds of expected convergence time,and time complexity. Using historical data successfully manipulated by human,the initial probability distribution is given and trained on this basis. The process of free exploration and continuous trial and error is eliminated and the expected convergence time can be effectively reduced,so that the training model can converge faster,and time complexity of the algorithm can be reduced. Choosing better hyperparameters for different stages of training to prevent overshoot and undershooting can help the training model converge better,reduce the upper and lower bounds of the expected convergence time,and thus reduce the time complexity of the algorithm. The algorithm is used for reinforcement learning in OpenAI Gym. After training,it is applied to the control software. The model is validated and further adjusted in a certain sea area. The experimental results show that as the number of experiment increases,the adaptability of the intelligent agent in the real environment gets better and better,and auxiliary control commands account for more than 50% of the total control commands,which effectively relieves the fatigue of the operator,and reduces the difficulty of novice training and the threshold for replacing operators.

    参考文献
    [1] 易谷丰.半潜式航行器运动特性研究[J].舰船电子工程,2015,35(6):128-132.
    [2] 易谷丰.半潜式航行器安全控制策略研究[J].舰船电子工程,2013,33(1):128-130.
    [3] 欧阳凌浩,师子锋.半潜式航行体横滚调整方式分析 [J].舰船科学技术,2013,35(2):63-67.
    [4] 刘栋.基于高海况条件下水面收放技术的研究与设计 [J].机械管理开发,2012(5):47-48.
    [5] 欧阳凌浩,田振华.半潜式航行体拖曳系统收放过程动态响应[J].水雷战与舰船防护,2014,22(4):41-45.
    [6] 龚喜,于亦凡,刘诗玉.基于PID控制的半潜式航行器缩比模型耐波性分析[J].水雷战与舰船防护,2017,25(4):20-24.
    [7] 董校成.UUV 水下自主回收路径规划与运动控制研究 [D].大连:大连海事大学,2022.
    [8] 王日中,李慧平,崔迪,等.基于深度强化学习算法的自主式水下航行器深度控制[J].智能科学与技术学报,2020,2(4):354-360.
    [9] 李浩.基于元强化学习的无人驾驶车辆行为决策研究 [D].大连:大连理工大学,2021.
    [10] 韩胜明,肖芳,程纬森.深度强化学习在自动驾驶系统中的应用综述[J].西华大学学报:自然科学版,2023,42(4):25-31.
    [11] 王兆维.基于PPO算法的智能汽车端到端深度强化学习控制研究[D].长春:吉林大学,2021.
    [12] 鲍轩.基于近端策略优化算法的水下机器人目标抓取仿真验证[J].舰船科学技术,2020,42(23):121-128.
    [13] 颜承昊,林远山,李然,等.一种基于PPO的 AUV 网箱巡检方法[J].计算机与数字工程,2023,51(1):93-97.
    [14] 胡致远,王征,杨洋,等.改进PPO算法的AUV路径规划研究[J].电光与控制,2023,30(1):87-91,102.
    [15] 李沐阳.基于 EER-PPO 算法的自主水下机器人路径跟踪及自主避障研究[D].济南:山东大学,2022.
    [16] BROCKMAN G,CHEUNG V,PETTERSSON L,et al.OpenAI Gym[EB/OL].[2016-06-05].https://arxiv.org/pdf/1606.01540.pdf.
    [17] 熊玮.不完全时间序列与纵向数据的建模研究[D].长春:吉林大学,2023.
    [18] 陈佳华,吕海宁.环境对航行体上浮速度和出水姿态的影响研究[J].装备制造技术,2023(2):24-30.
    [19] 刘广泽.基于人机协作的深度强化学习电子游戏算法的研究与实践[D].北京:北京邮电大学,2020.
    [20] 姜文翼.基于神经网络的角色动画运动控制器优化研究[D].厦门:厦门大学,2019.
    [21] 毛磊.高海况水下设备的回收技术研究[D].北京:中国舰船研究院,2015.
    [22] 张颖.深度学习模型超参数优化的研究[D].北京:首都经济贸易大学,2020.
    引证文献
    网友评论
    网友评论
    分享到微博
    发 布
引用本文

万骏,张钰竹.半潜式航行体回收辅助操控技术应用[J].数字海洋与水下攻防,2024,7(2):186-194

复制
分享
文章指标
  • 点击次数:55
  • 下载次数: 367
  • HTML阅读次数: 0
  • 引用次数: 0
历史
  • 收稿日期:2023-10-23
  • 在线发布日期: 2024-04-23
文章二维码