基于可中断Option的在线分层强化学习方法

TP181; 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率.针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略.仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性....

Full description

Saved in:
Bibliographic Details
Published in通信学报 Vol. 37; no. 6; pp. 65 - 74
Main Authors 朱斐, 许志鹏, 刘全, 伏玉琛, 王辉
Format Journal Article
LanguageChinese
Published 吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012%苏州大学计算机科学与技术学院,江苏苏州,215006 2016
苏州大学计算机科学与技术学院,江苏苏州215006
Subjects
Online AccessGet full text
ISSN1000-436X
DOI10.11959/j.issn.1000-436x.2016117

Cover

More Information
Summary:TP181; 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率.针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略.仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性.
ISSN:1000-436X
DOI:10.11959/j.issn.1000-436x.2016117