改进MADDPG算法的非凸环境下多智能体自组织协同围捕

TP301; 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法.利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法.为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务.基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间...

Full description

Saved in:

Bibliographic Details
Published in	计算机科学与探索 Vol. 18; no. 8; pp. 2080 - 2090
Main Authors	张红强, 石佳航, 吴亮红, 王汐, 左词立, 陈祖国, 刘朝华, 陈磊
Format	Journal Article
Language	Chinese
Published	湖南科技大学信息与电气工程学院,湖南湘潭 411201 01.08.2024
Subjects	RW-MADDPG experience pool 深度强化学习 rounding reward function 围捕奖励函数 deep reinforcement learning residual network 经验池残差网络
Online Access	Get full text
ISSN	1673-9418
DOI	10.3778/j.issn.1673-9418.2310040

Cover

More Information
Summary:	TP301; 针对多智能体在非凸环境下的围捕效率问题,提出基于改进经验回放的多智能体强化学习算法.利用残差网络(ResNet)来改善网络退化问题,并与多智能体深度确定性策略梯度算法(MADDPG)相结合,提出了RW-MADDPG算法.为解决多智能体在训练过程中,经验池数据利用率低的问题,提出两种改善经验池数据利用率的方法;为解决多智能体在非凸障碍环境下陷入障碍物内部的情况(如陷入目标不可达等),通过设计合理的围捕奖励函数使得智能体在非凸障碍物环境下完成围捕任务.基于此算法设计仿真实验,实验结果表明,该算法在训练阶段奖励增加得更快,能更快地完成围捕任务,相比MADDPG算法静态围捕环境下训练时间缩短18.5%,动态环境下训练时间缩短49.5%,而且在非凸障碍环境下该算法训练的围捕智能体的全局平均奖励更高.
ISSN:	1673-9418
DOI:	10.3778/j.issn.1673-9418.2310040