带有惩罚措施的自竞争事后经验重播算法

TP181; 自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略.HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型.但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大量重复数据,这些无效数据会对经验池造成污染;二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态,导致学习偏差.针对这些问题,SCHER算法提出了两个改进策略:一是增加自适应的奖励信号,对智能体做出的无意义动作进行惩罚,使其快速规避此类操作;二是使用自竞争策略,通过竞争产生针对同一任务下的两组不同数据,对比分析后找到使智能体在不同环境中成功...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 18; no. 5; pp. 1223 - 1231
Main Authors 王子豪, 钱雪忠, 宋威
Format Journal Article
LanguageChinese
Published 江南大学 人工智能与计算机学院,江苏 无锡 214122 01.05.2024
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.2303031

Cover

More Information
Summary:TP181; 自竞争事后经验重播(SCHER)是在事后经验重播(HER)算法的基础上提出的一种改进策略.HER算法在面对环境奖励稀疏的情况下,通过回放经验生成虚拟有标签数据来优化模型.但HER算法存在两个问题:一是无法处理智能体由于奖励稀疏所产生的大量重复数据,这些无效数据会对经验池造成污染;二是虚拟目标可能会随机选择到一些对完成任务没有帮助的中间状态,导致学习偏差.针对这些问题,SCHER算法提出了两个改进策略:一是增加自适应的奖励信号,对智能体做出的无意义动作进行惩罚,使其快速规避此类操作;二是使用自竞争策略,通过竞争产生针对同一任务下的两组不同数据,对比分析后找到使智能体在不同环境中成功的关键步骤,提高生成虚拟目标的准确程度.实验结果表明,SCHER算法可以更好地利用经验回放技术,将平均任务成功率提高5.7个百分点,拥有更高的准确率和泛化能力.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.2303031