多智能体深度强化学习的若干关键科学问题

强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能.本文综述了强化学习和深度强化学习方法的原理,提出学习系统的闭环控制框架,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题,对所调查方法的优缺点和相关应用进行分析和讨论.最后提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路....

Full description

Saved in:
Bibliographic Details
Published in自动化学报 Vol. 46; no. 7; pp. 1301 - 1312
Main Authors 孙长银, 穆朝絮
Format Journal Article
LanguageChinese
Published 东南大学自动化学院 南京210096%天津大学电气自动化与信息工程学院 天津300072 01.07.2020
Subjects
Online AccessGet full text
ISSN0254-4156
DOI10.16383/j.aas.c200159

Cover

More Information
Summary:强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能.本文综述了强化学习和深度强化学习方法的原理,提出学习系统的闭环控制框架,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题,对所调查方法的优缺点和相关应用进行分析和讨论.最后提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路.
ISSN:0254-4156
DOI:10.16383/j.aas.c200159