多智能体博弈学习研究进展

TP391; 随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了"端到端"解决方案.多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战.本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法.其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战.再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法....

Full description

Saved in:

Bibliographic Details
Published in	系统工程与电子技术 Vol. 46; no. 5; pp. 1628 - 1655
Main Authors	罗俊仁, 张万鹏, 苏炯铭, 袁唯淋, 陈璟
Format	Journal Article
Language	Chinese
Published	国防科技大学智能科学学院,湖南长沙 410073 01.05.2024
Subjects	meta-game 多智能体学习元博弈博弈学习 learning in games multi-agent learning online no regret learning 在线无悔学习
Online Access	Get full text
ISSN	1001-506X
DOI	10.12305/j.issn.1001-506X.2024.05.17

Cover

More Information
Summary:	TP391; 随着深度学习和强化学习而来的人工智能新浪潮,为智能体从感知输入到行动决策输出提供了"端到端"解决方案.多智能体学习是研究智能博弈对抗的前沿课题,面临着对抗性环境、非平稳对手、不完全信息和不确定行动等诸多难题与挑战.本文从博弈论视角入手,首先给出了多智能体学习系统组成,进行了多智能体学习概述,简要介绍了各类多智能体学习研究方法.其次,围绕多智能体博弈学习框架,介绍了多智能体博弈基础模型及元博弈模型,均衡解概念和博弈动力学,学习目标多样、环境(对手)非平稳、均衡难解且易变等挑战.再次,全面梳理了多智能体博弈策略学习方法,离线博弈策略学习方法,在线博弈策略学习方法.最后,从智能体认知行为建模与协同、通用博弈策略学习方法和分布式博弈策略学习框架共3个方面探讨了多智能体学习的前沿研究方向.
ISSN:	1001-506X
DOI:	10.12305/j.issn.1001-506X.2024.05.17