导弹突防后弹道机动调整策略强化学习
TJ765.3; 针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性....
Saved in:
| Published in | 国防科技大学学报 Vol. 46; no. 2; pp. 94 - 103 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
火箭军工程大学作战保障学院,陕西西安 710025
2024
火箭军装备部驻西安地区第一军事代表室,陕西西安 710025%火箭军工程大学作战保障学院,陕西西安 710025%火箭军装备部驻西安地区第一军事代表室,陕西西安 710025 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1001-2486 |
| DOI | 10.11887/j.cn.202402010 |
Cover
| Summary: | TJ765.3; 针对弹道导弹中段突防后飞行弹道与标准弹道产生较大偏离的弹道机动调整问题,建立了机动调整时机策略最优化模型.设计了机动调整逆序Q学习算法,采用Tile coding逼近器编码状态特征空间,并对其进行线性逼近.构建了Q学习算法与蒙特卡罗方法相结合的逆序更新策略机制,以对导弹机动调整最优时机进行训练.仿真测试分析结果表明,在给定场景参数下,通过10 000 代强化学习算法训练得到的策略能够可靠地使用最少机动次数控制导弹突防后飞行弹道的调整决策,验证了方法的有效性. |
|---|---|
| ISSN: | 1001-2486 |
| DOI: | 10.11887/j.cn.202402010 |