基于强化学习的多能源动态滑翔航迹优化方法

V249.1; 针对无人机动态滑翔问题,提出了一种基于深度强化学习的航迹优化方法.该方法综合利用梯度风能和太阳能,引入了障碍物约束以模拟复杂障碍环境.使用神经网络近似逼近高斯伪谱方法求解航迹的策略,在训练得到的策略基础上利用双延迟深度确定性策略梯度算法进行策略改进,在大幅度提升推理实时性的同时解决了传统最优控制算法在动态滑翔领域难以应对变化风场的问题.实验针对动态滑翔2 种经典模式进行仿真验证,之后在考虑多种能量源的情况下进行蒙特卡洛仿真.结果表明,基于深度强化学习的动态滑翔航迹优化方法在单个滑翔周期内获能与最优结果相近,而实时推理决策时间减少了91%.在变化风场环境下,文中方法相较于传统方法...

Full description

Saved in:

Bibliographic Details
Published in	西北工业大学学报 Vol. 43; no. 1; pp. 128 - 139
Main Authors	张云飞, 王宏伦, 张梦华, 巩轶男
Format	Journal Article
Language	Chinese
Published	北京航空航天大学自动化科学与电气工程学院,北京 100191 01.02.2025 北京航空航天大学飞行器控制一体化技术国防科技重点实验室,北京 100191%海鹰航空通用装备有限责任公司,北京 100074
Subjects	dynamic soaring 动态滑翔高斯伪谱强化学习 trajectory optimization 航迹优化 Gaussian pseudospectral method reinforcement learning
Online Access	Get full text
ISSN	1000-2758
DOI	10.1051/jnwpu/20254310128

Cover

More Information
Summary:	V249.1; 针对无人机动态滑翔问题,提出了一种基于深度强化学习的航迹优化方法.该方法综合利用梯度风能和太阳能,引入了障碍物约束以模拟复杂障碍环境.使用神经网络近似逼近高斯伪谱方法求解航迹的策略,在训练得到的策略基础上利用双延迟深度确定性策略梯度算法进行策略改进,在大幅度提升推理实时性的同时解决了传统最优控制算法在动态滑翔领域难以应对变化风场的问题.实验针对动态滑翔2 种经典模式进行仿真验证,之后在考虑多种能量源的情况下进行蒙特卡洛仿真.结果表明,基于深度强化学习的动态滑翔航迹优化方法在单个滑翔周期内获能与最优结果相近,而实时推理决策时间减少了91%.在变化风场环境下,文中方法相较于传统方法具有更强的适应性.
ISSN:	1000-2758
DOI:	10.1051/jnwpu/20254310128