摘要:半潜式航行体回收过程耗时较长,对操纵者经验、技术门槛高,试错成本大。针对此问题提出VH-PPO算法,从收敛性、期望收敛时间的上下界、时间复杂度三个方面分析其性能,其中通过人工操控成功的历史数据给予初始概率分布并在此基础上进行训练,省去了自由探索不断试错的过程,可有效减小期望收敛时间,使训练模型更快的收敛,从而降低算法的时间复杂度。针对训练时不同的阶段,选择更优的超参数,防止超调和欠调现象,可帮助训练模型更好的收敛,降低期望收敛时间的上下界,从而降低算法的时间复杂度。在OpenAI Gym上通过该算法进行强化学习,训练完成后应用于操控软件,在三亚某海域进行验证并进一步调整模型,实验结果表明:随着试验次数增加,智能体在真实环境中的适应能力越来越好,辅助操控指令在总操控指令中占比超过50%,有效的减缓了操纵者的疲劳,降低了新手训练难度及替换操纵者的门槛。