基于深度随机博弈的近距空战机动决策

TP181; 针对空战中作战信息复杂、难以快速准确地感知态势做出决策的问题,提出一种博弈论与深度强化学习相结合的算法.首先,依据一对一典型空战流程,以随机博弈为标准,构建近距空战中红蓝双方对抗条件下的双机多状态博弈模型.其次,利用深度Q网络(deep Q network,DQN)处理战机的连续无限状态空间.然后,使用Minimax算法构建线性规划来求解每个特定状态下阶段博弈的最优值函数,并训练网络逼近值函数.最后,训练完成后根据网络输出求得最优机动策略.空战仿真实验表明,该算法具有较好的适应性和智能性,能够有效地针对空战对手的行动策略实时选择有利的机动动作并占据优势地位....

Full description

Saved in:

Bibliographic Details
Published in	系统工程与电子技术 Vol. 43; no. 2; pp. 443 - 451
Main Authors	马文, 李辉, 王壮, 黄志勇, 吴昭欣, 陈希亮
Format	Journal Article
Language	Chinese
Published	四川大学视觉合成图形图像技术国家级重点实验室,四川成都 610065%四川大学视觉合成图形图像技术国家级重点实验室,四川成都 610065%陆军工程大学指挥控制工程学院,江苏南京 210007 01.02.2021 四川大学计算机学院,四川成都 610065%四川大学计算机学院,四川成都 610065
Subjects	博弈论深度强化学习空战决策随机博弈
Online Access	Get full text
ISSN	1001-506X
DOI	10.12305/j.issn.1001-506X.2021.02.19

Cover

More Information
Summary:	TP181; 针对空战中作战信息复杂、难以快速准确地感知态势做出决策的问题,提出一种博弈论与深度强化学习相结合的算法.首先,依据一对一典型空战流程,以随机博弈为标准,构建近距空战中红蓝双方对抗条件下的双机多状态博弈模型.其次,利用深度Q网络(deep Q network,DQN)处理战机的连续无限状态空间.然后,使用Minimax算法构建线性规划来求解每个特定状态下阶段博弈的最优值函数,并训练网络逼近值函数.最后,训练完成后根据网络输出求得最优机动策略.空战仿真实验表明,该算法具有较好的适应性和智能性,能够有效地针对空战对手的行动策略实时选择有利的机动动作并占据优势地位.
ISSN:	1001-506X
DOI:	10.12305/j.issn.1001-506X.2021.02.19