导弹突防后弹道机动调整策略强化学习

TJ765.3; 针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性....

Full description

Saved in:

Bibliographic Details
Published in	国防科技大学学报 Vol. 46; no. 2; pp. 94 - 103
Main Authors	樊博璇, 陈桂明, 韩磊, 李冰
Format	Journal Article
Language	Chinese
Published	火箭军工程大学作战保障学院,陕西西安 710025 2024 火箭军装备部驻西安地区第一军事代表室,陕西西安 710025%火箭军工程大学作战保障学院,陕西西安 710025%火箭军装备部驻西安地区第一军事代表室,陕西西安 710025
Subjects	control decision Q learning 中段突防弹道导弹 Q学习控制决策 midcourse penetration 强化学习 ballistic missile reinforcement learning
Online Access	Get full text
ISSN	1001-2486
DOI	10.11887/j.cn.202402010

Cover

More Information
Summary:	TJ765.3; 针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性.
ISSN:	1001-2486
DOI:	10.11887/j.cn.202402010