基于虚拟目标制导的自适应Q学习路径规划算法
TP242; 针对经典强化学习算法用于未知环境下机器人路径规划问题时,存在探索效率低、收敛速度慢、易陷入地形陷阱,以及学习过程缺少中间态导致探索盲目性等问题,设计了双重记忆机制、虚拟目标引导方法、自适应贪婪因子,提出基于虚拟目标引导的自适应Q学习算法.设计了 4种环境地图,同其他改进算法进行了对比仿真实验,并通过四驱麦克纳姆轮机器人虚拟仿真实验验证算法性能.实验结果表明,新算法显著减少了迭代次数,提高了强化学习收敛速度,且对复杂环境具有较好的鲁棒性,能够有效避免地形陷阱,提高移动机器人导航系统性能,为移动机器人自主路径规划提供了参考....
Saved in:
Published in | 计算机集成制造系统 Vol. 30; no. 2; pp. 553 - 568 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
安徽大学电气工程与自动化学院,安徽 合肥 230601
29.02.2024
|
Subjects | |
Online Access | Get full text |
ISSN | 1006-5911 |
DOI | 10.13196/j.cims.2022.0733 |
Cover
Summary: | TP242; 针对经典强化学习算法用于未知环境下机器人路径规划问题时,存在探索效率低、收敛速度慢、易陷入地形陷阱,以及学习过程缺少中间态导致探索盲目性等问题,设计了双重记忆机制、虚拟目标引导方法、自适应贪婪因子,提出基于虚拟目标引导的自适应Q学习算法.设计了 4种环境地图,同其他改进算法进行了对比仿真实验,并通过四驱麦克纳姆轮机器人虚拟仿真实验验证算法性能.实验结果表明,新算法显著减少了迭代次数,提高了强化学习收敛速度,且对复杂环境具有较好的鲁棒性,能够有效避免地形陷阱,提高移动机器人导航系统性能,为移动机器人自主路径规划提供了参考. |
---|---|
ISSN: | 1006-5911 |
DOI: | 10.13196/j.cims.2022.0733 |