基于值函数分解的多智能体深度强化学习方法研究综述

TP181; 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点.文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学 Vol. 51; no. z1; pp. 22 - 30
Main Authors	高玉钊, 聂一鸣
Format	Journal Article
Language	Chinese
Published	军事科学院国防科技创新研究院北京 100071 2024
Subjects	收敛效果 Scalability 多智能体深度强化学习可扩展性 Multi-agent deep reinforcement learning Fitting ability 拟合能力 Value function factorization Convergence effect 值函数分解
Online Access	Get full text
ISSN	1002-137X
DOI	10.11896/jsjkx.230300170

Cover

More Information
Summary:	TP181; 多智能体深度强化学习方法是深度强化学习方法在多智能体问题上的扩展,其中基于值函数分解的多智能体深度强化学习方法取得了较好的表现效果,是目前研究和应用的热点.文中介绍了基于值函数分解的多智能体深度强化学习方法的主要原理和框架;根据近期相关研究,总结出了提高混合网络拟合能力问题、提高收敛效果问题和提高算法可扩展性问题3个研究热点,从算法约束、环境复杂度、神经网络限制等方面分析了3个热点问题产生的原因;根据拟解决的问题和使用的方法对现有研究进行了分类梳理,总结了同类方法的共同点,分析了不同方法的优缺点;对基于值函数分解的多智能体深度强化学习方法在网络节点控制、无人编队控制两个热点领域的应用进行了阐述.
ISSN:	1002-137X
DOI:	10.11896/jsjkx.230300170