融合动作退出和软奖励的强化学习知识推理方法

TP391; 针对深度强化学习推理方法中存在的过拟合以及稀疏奖励的问题,提出了一种融合动作退出和软奖励的强化学习知识推理方法(knowledge reasoning method of reinforcement learning integrating action withdrawal and soft reward,AS-KRL).AS-KRL使用门控循环神经网络(GRU)对历史路径信息进行编码,为智能体的动作选择提供当前节点的全局信息;引入动作退出策略随机隐藏部分神经元后再构建策略网络,提高模型路径搜索的成功率,还避免了可能出现的过拟合问题;通过策略网络指导智能体进行动作选择,调用评分...

Full description

Saved in:

Bibliographic Details
Published in	计算机工程与应用 Vol. 60; no. 24; pp. 158 - 165
Main Authors	孙崇, 王海荣, 荆博祥, 马赫
Format	Journal Article
Language	Chinese
Published	北方民族大学图像图形智能处理国家民委重点实验室,银川 750021 15.12.2024 北方民族大学计算机科学与工程学院,银川 750021%北方民族大学计算机科学与工程学院,银川 750021
Subjects	gated recurrent unit(GRU) 知识推理动作退出算法强化学习软奖励机制 soft reward mechanism knowledge reasoning action dropout 门控循环神经网络 reinforcement learning
Online Access	Get full text
ISSN	1002-8331
DOI	10.3778/j.issn.1002-8331.2308-0215

Cover

More Information
Summary:	TP391; 针对深度强化学习推理方法中存在的过拟合以及稀疏奖励的问题,提出了一种融合动作退出和软奖励的强化学习知识推理方法(knowledge reasoning method of reinforcement learning integrating action withdrawal and soft reward,AS-KRL).AS-KRL使用门控循环神经网络(GRU)对历史路径信息进行编码,为智能体的动作选择提供当前节点的全局信息;引入动作退出策略随机隐藏部分神经元后再构建策略网络,提高模型路径搜索的成功率,还避免了可能出现的过拟合问题;通过策略网络指导智能体进行动作选择,调用评分函数计算智能体所选三元组的相似度得分,并将所得分数作为智能体的奖励,有效解决稀疏奖励问题.为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等9种主流方法进行对比分析,结果表明该方法在链接预测任务上的Hits@k平均提升了0.027,MRR平均提升了0.056.
ISSN:	1002-8331
DOI:	10.3778/j.issn.1002-8331.2308-0215