导弹突防后弹道机动调整策略强化学习

TJ765.3; 针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性....

Full description

Saved in:
Bibliographic Details
Published in国防科技大学学报 Vol. 46; no. 2; pp. 94 - 103
Main Authors 樊博璇, 陈桂明, 韩磊, 李冰
Format Journal Article
LanguageChinese
Published 火箭军工程大学作战保障学院,陕西西安 710025 2024
火箭军装备部驻西安地区第一军事代表室,陕西西安 710025%火箭军工程大学作战保障学院,陕西西安 710025%火箭军装备部驻西安地区第一军事代表室,陕西西安 710025
Subjects
Online AccessGet full text
ISSN1001-2486
DOI10.11887/j.cn.202402010

Cover

More Information
Summary:TJ765.3; 针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性.
ISSN:1001-2486
DOI:10.11887/j.cn.202402010