基于近端策略优化的智能抗干扰决策算法

TN92; 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法.分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择.仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%....

Full description

Saved in:

Bibliographic Details
Published in	通信学报 Vol. 45; no. 8; pp. 249 - 257
Main Authors	马松, 李黎, 黎伟, 黄巍, 王军
Format	Journal Article
Language	Chinese
Published	电子科技大学通信抗干扰全国重点实验室,四川成都 611731%中国西南电子设备研究所,四川成都 610036%电子科技大学通信抗干扰全国重点实验室,四川成都 611731 01.08.2024 中国西南电子技术研究所,四川成都 610036
Subjects	抗干扰决策深度强化学习智能抗干扰 intelligent anti-jamming anti-jamming decision proximal policy optimization deep reinforcement learning 近端策略优化
Online Access	Get full text
ISSN	1000-436X
DOI	10.11959/j.issn.1000-436x.2024137

Cover

More Information
Summary:	TN92; 针对现有基于深度强化学习的智能抗干扰方法应用于天地测控通信链路时,用于决策的深度神经网络结构复杂,卫星等飞行器资源受限,难以在有限的复杂度约束下独立完成复杂神经网络的及时训练,抗干扰决策无法收敛的问题,提出了一种基于近端策略优化的智能抗干扰决策算法.分别在飞行器和地面站部署决策神经网络和训练神经网络,地面站根据飞行器反馈的经验信息进行最优化离线训练,辅助决策神经网络进行参数更新,在满足飞行器资源约束的同时实现有效的抗干扰策略选择.仿真结果表明,与基于策略梯度和基于深度Q学习的决策算法相比,所提算法收敛速度提升37%,收敛后的系统容量提升25%.
ISSN:	1000-436X
DOI:	10.11959/j.issn.1000-436x.2024137