基于可中断Option的在线分层强化学习方法
TP181; 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率.针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略.仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性....
Saved in:
Published in | 通信学报 Vol. 37; no. 6; pp. 65 - 74 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012%苏州大学计算机科学与技术学院,江苏苏州,215006
2016
苏州大学计算机科学与技术学院,江苏苏州215006 |
Subjects | |
Online Access | Get full text |
ISSN | 1000-436X |
DOI | 10.11959/j.issn.1000-436x.2016117 |
Cover
Summary: | TP181; 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率.针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略.仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性. |
---|---|
ISSN: | 1000-436X |
DOI: | 10.11959/j.issn.1000-436x.2016117 |