融合动作退出和软奖励的强化学习知识推理方法
TP391; 针对深度强化学习推理方法中存在的过拟合以及稀疏奖励的问题,提出了一种融合动作退出和软奖励的强化学习知识推理方法(knowledge reasoning method of reinforcement learning integrating action withdrawal and soft reward,AS-KRL).AS-KRL使用门控循环神经网络(GRU)对历史路径信息进行编码,为智能体的动作选择提供当前节点的全局信息;引入动作退出策略随机隐藏部分神经元后再构建策略网络,提高模型路径搜索的成功率,还避免了可能出现的过拟合问题;通过策略网络指导智能体进行动作选择,调用评分...
Saved in:
| Published in | 计算机工程与应用 Vol. 60; no. 24; pp. 158 - 165 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
北方民族大学 图像图形智能处理国家民委重点实验室,银川 750021
15.12.2024
北方民族大学 计算机科学与工程学院,银川 750021%北方民族大学 计算机科学与工程学院,银川 750021 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1002-8331 |
| DOI | 10.3778/j.issn.1002-8331.2308-0215 |
Cover
| Summary: | TP391; 针对深度强化学习推理方法中存在的过拟合以及稀疏奖励的问题,提出了一种融合动作退出和软奖励的强化学习知识推理方法(knowledge reasoning method of reinforcement learning integrating action withdrawal and soft reward,AS-KRL).AS-KRL使用门控循环神经网络(GRU)对历史路径信息进行编码,为智能体的动作选择提供当前节点的全局信息;引入动作退出策略随机隐藏部分神经元后再构建策略网络,提高模型路径搜索的成功率,还避免了可能出现的过拟合问题;通过策略网络指导智能体进行动作选择,调用评分函数计算智能体所选三元组的相似度得分,并将所得分数作为智能体的奖励,有效解决稀疏奖励问题.为验证该方法的有效性,在FB15K-237和NELL-995数据集上进行实验,将实验结果与TransE、MINERVA、HRL等9种主流方法进行对比分析,结果表明该方法在链接预测任务上的Hits@k平均提升了0.027,MRR平均提升了0.056. |
|---|---|
| ISSN: | 1002-8331 |
| DOI: | 10.3778/j.issn.1002-8331.2308-0215 |