面向云数据中心基于改进A2C算法的任务调度策略

TP393; 已有基于深度强化学习(Deep Reinforcement Learning,DRL)的云数据中心任务调度算法存在有效经验利用率低造成训练成本高、状态空间维数不固定和维度较高导致学习震荡,以及策略更新步长固定造成的收敛速度慢等问题.为解决以上问题,基于云数据中心场景构建并行任务调度框架,并以时延、能耗和负载均衡为 目标研究云任务调度问题.在DRL算法A2C(Advantage Actor Critic)的基础上,提出了一种基于自适应状态优选和动态步长的云数据中心任务调度算法(Adaptive state Optimization and Dynamic Step size A2C...

Full description

Saved in:
Bibliographic Details
Published in计算机科学 Vol. 52; no. 2; pp. 310 - 322
Main Authors 徐东红, 李彬, 齐勇
Format Journal Article
LanguageChinese
Published 中国矿业大学计算机科学与技术学院 江苏徐州 221116%西安交通大学计算机科学与技术学院 西安 710049 2025
Subjects
Online AccessGet full text
ISSN1002-137X
DOI10.11896/jsjkx.240500111

Cover

More Information
Summary:TP393; 已有基于深度强化学习(Deep Reinforcement Learning,DRL)的云数据中心任务调度算法存在有效经验利用率低造成训练成本高、状态空间维数不固定和维度较高导致学习震荡,以及策略更新步长固定造成的收敛速度慢等问题.为解决以上问题,基于云数据中心场景构建并行任务调度框架,并以时延、能耗和负载均衡为 目标研究云任务调度问题.在DRL算法A2C(Advantage Actor Critic)的基础上,提出了一种基于自适应状态优选和动态步长的云数据中心任务调度算法(Adaptive state Optimization and Dynamic Step size A2C,AODS-A2C).首先,使用准入控制和优先级策略对队列任务进行筛选和排序,提高有效经验的利用率;其次,将动态高维状态以自适应的方式进行快速优选处理,保持相对稳定的状态空间,避免训练过程中出现震荡问题;最后,使用JS(Jensen Shannon)散度度量新旧策略的概率分布差异,并根据这种差异动态地匹配调整Actor网络和Critic网络的学习步长,从而将当前学习状态迅速调整为最佳值,提高算法的收敛速度.仿真实验结果表明,所提出的AODS-A2C算法具有收敛速度快、鲁棒性高等特点,相较于其他对比算法在时延方面降低了1.2%到34.4%,在能耗方面降低了1.6%到57.2%,并可以实现良好的负载均衡.
ISSN:1002-137X
DOI:10.11896/jsjkx.240500111