基于深度强化学习的柔性作业车间节能调度研究
针对当前柔性作业车间节能调度研究无法充分利用历史生产数据,且对复杂、动态、多变的车间生产环境适应性不足的问题,引入深度强化学习思想,利用具有代表性的深度Q网络(deep Q-network,DQN)求解柔性作业车间节能调度问题。将柔性作业车间节能调度问题转化为强化学习对应的马尔科夫决策过程。进而,提炼表征车间生产状态特征的状态值作为神经网络输入,通过神经网络拟合状态值函数,输出复合调度动作规则实现对工件以及加工机器的选择,并利用动作规则与奖励函数协同优化能耗。在3个不同规模的案例上与非支配排序遗传算法、超启发式遗传算法、改进狼群算法等典型智能优化方法进行求解效果对比。结果表明,DQN算法有较强...
Saved in:
| Published in | 工业工程 Vol. 27; no. 1; pp. 78 - 85 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
广东工业大学
01.02.2024
河南工业大学 机电工程学院 河南省超硬磨料磨削装备重点实验室,河南 郑州 450001 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1007-7375 |
| DOI | 10.3969/j.issn.1007-7375.230101 |
Cover
| Summary: | 针对当前柔性作业车间节能调度研究无法充分利用历史生产数据,且对复杂、动态、多变的车间生产环境适应性不足的问题,引入深度强化学习思想,利用具有代表性的深度Q网络(deep Q-network,DQN)求解柔性作业车间节能调度问题。将柔性作业车间节能调度问题转化为强化学习对应的马尔科夫决策过程。进而,提炼表征车间生产状态特征的状态值作为神经网络输入,通过神经网络拟合状态值函数,输出复合调度动作规则实现对工件以及加工机器的选择,并利用动作规则与奖励函数协同优化能耗。在3个不同规模的案例上与非支配排序遗传算法、超启发式遗传算法、改进狼群算法等典型智能优化方法进行求解效果对比。结果表明,DQN算法有较强的搜索能力,且最优解分布情况与提出的柔性作业车间节能调度模型聚焦能耗目标相一致,从而验证了所用DQN方法的有效性。 |
|---|---|
| ISSN: | 1007-7375 |
| DOI: | 10.3969/j.issn.1007-7375.230101 |