基于行为克隆的高通量卫星通信频谱资源分配

TN92; 为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法.第一阶段基于行为克隆,利用已有卫星资源分配决策数据对策略网络进行预训练,通过模仿专家行为减少盲目探索,加快算法收敛.第二阶段基于近端策略优化,进一步优化策略网络,并通过引入卷积注意力模块有效地提取用户业务状态特征,以提升算法整体性能.仿真结果表明,所提算法在收敛速度和算法稳定性方面均优于其他基准算法,并在系统时延、系统平均满意度和频谱效率等性能指标上表现更佳....

Full description

Saved in:

Bibliographic Details
Published in	通信学报 Vol. 45; no. 5; pp. 101 - 114
Main Authors	秦浩, 李双益, 赵迪, 孟昊炜, 宋彬
Format	Journal Article
Language	Chinese
Published	西安电子科技大学空天地一体化综合业务网全国重点实验室,陕西西安 710071 30.05.2024 西安电子科技大学杭州研究院,浙江杭州 311200%西安电子科技大学空天地一体化综合业务网全国重点实验室,陕西西安 710071
Subjects	卷积注意力模块深度强化学习高通量卫星 high-throughput satellite proximal policy optimization deep reinforcement learning 行为克隆 con-volutional block attention module behavior cloning 近端策略优化
Online Access	Get full text
ISSN	1000-436X
DOI	10.11959/j.issn.1000-436x.2024100

Cover

More Information
Summary:	TN92; 为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法.第一阶段基于行为克隆,利用已有卫星资源分配决策数据对策略网络进行预训练,通过模仿专家行为减少盲目探索,加快算法收敛.第二阶段基于近端策略优化,进一步优化策略网络,并通过引入卷积注意力模块有效地提取用户业务状态特征,以提升算法整体性能.仿真结果表明,所提算法在收敛速度和算法稳定性方面均优于其他基准算法,并在系统时延、系统平均满意度和频谱效率等性能指标上表现更佳.
ISSN:	1000-436X
DOI:	10.11959/j.issn.1000-436x.2024100