基于深度强化学习的四向协同三维装箱方法
物流作为现代经济的重要组成部分,在国民经济和社会发展中发挥着重要作用.物流中的三维装箱问题(Three-dimensional bin packing problem,3D-BPP)是提高物流运作效率必须解决的关键难题之一.深度强化学习(Deep rein-forcement learning,DRL)具有强大的学习与决策能力,基于DRL的三维装箱方法(Three-dimensional bin packing method based on DRL,DRL-3DBP)已成为智能物流领域的研究热点之一.现有DRL-3DBP面对大尺寸容器3D-BPP时难以达成动作空间、计算复杂性与探索能力之间的...
Saved in:
| Published in | 自动化学报 Vol. 50; no. 12; pp. 2420 - 2431 |
|---|---|
| Main Authors | , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
西南交通大学信息科学与技术学院 成都 611756%西南交通大学计算机与人工智能学院 成都 611756
01.12.2024
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 0254-4156 |
| DOI | 10.16383/j.aas.c240124 |
Cover
| Summary: | 物流作为现代经济的重要组成部分,在国民经济和社会发展中发挥着重要作用.物流中的三维装箱问题(Three-dimensional bin packing problem,3D-BPP)是提高物流运作效率必须解决的关键难题之一.深度强化学习(Deep rein-forcement learning,DRL)具有强大的学习与决策能力,基于DRL的三维装箱方法(Three-dimensional bin packing method based on DRL,DRL-3DBP)已成为智能物流领域的研究热点之一.现有DRL-3DBP面对大尺寸容器3D-BPP时难以达成动作空间、计算复杂性与探索能力之间的平衡.为此,提出一种四向协同装箱(Four directional cooperative packing,FDCP)方法:两阶段策略网络接收旋转后的容器状态,生成4个方向的装箱策略;根据由4个策略采样而得的动作更新对应的4个状态,选取其中价值最大的对应动作为装箱动作.FDCP在压缩动作空间、减小计算复杂性的同时,鼓励智能体对4个方向合理装箱位置的探索.实验结果表明,FDCP在100 × 100大尺寸容器以及20、30、50箱子数量的装箱问题上实现了1.2%~2.9%的空间利用率提升. |
|---|---|
| ISSN: | 0254-4156 |
| DOI: | 10.16383/j.aas.c240124 |