面向无人艇的T-DQN智能避障算法研究

无人艇(Unmanned surface vehicle,USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network,T-DQN),在深度Q网络(Deep Q network,DQN)基础上增加长短期记忆网络(Long short-term memory,LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结...

Full description

Saved in:

Bibliographic Details
Published in	自动化学报 Vol. 49; no. 8; pp. 1645 - 1655
Main Authors	周治国, 余思雨, 于家宝, 段俊伟, 陈龙, 陈俊龙
Format	Journal Article
Language	Chinese
Published	北京理工大学信息与电子学院北京 100081%暨南大学信息科学技术学院广州 510532%澳门大学科技学院澳门 999078%华南理工大学计算机科学与工程学院广州 510006 01.08.2023
Subjects	Unmanned surface vehicle(USV) 无人艇强化学习深度Q网络智能避障 deep Q net-work(DQN) intelligent obstacle avoidance reinforcement learning
Online Access	Get full text
ISSN	0254-4156
DOI	10.16383/j.aas.c210080

Cover

More Information
Summary:	无人艇(Unmanned surface vehicle,USV)作为一种具有广泛应用前景的无人系统,其自主决策能力尤为关键.由于水面运动环境较为开阔,传统避障决策算法难以在量化规则下自主规划最优路线,而一般强化学习方法在大范围复杂环境下难以快速收敛.针对这些问题,提出一种基于阈值的深度Q网络避障算法(Threshold deep Q network,T-DQN),在深度Q网络(Deep Q network,DQN)基础上增加长短期记忆网络(Long short-term memory,LSTM)来保存训练信息,并设定经验回放池阈值加速算法的收敛.通过在不同尺度的栅格环境中进行实验仿真,实验结果表明,T-DQN算法能快速地收敛到最优路径,其整体收敛步数相比Q-learning算法和DQN算法,分别减少 69.1%和 24.8%,引入的阈值筛选机制使整体收敛步数降低 41.1%.在Unity 3D强化学习仿真平台,验证了复杂地图场景下的避障任务完成情况,实验结果表明,该算法能实现无人艇的精细化避障和智能安全行驶.
ISSN:	0254-4156
DOI:	10.16383/j.aas.c210080