基于行为克隆的高通量卫星通信频谱资源分配
TN92; 为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法.第一阶段基于行为克隆,利用已有卫星资源分配决策数据对策略网络进行预训练,通过模仿专家行为减少盲目探索,加快算法收敛.第二阶段基于近端策略优化,进一步优化策略网络,并通过引入卷积注意力模块有效地提取用户业务状态特征,以提升算法整体性能.仿真结果表明,所提算法在收敛速度和算法稳定性方面均优于其他基准算法,并在系统时延、系统平均满意度和频谱效率等性能指标上表现更佳....
Saved in:
| Published in | 通信学报 Vol. 45; no. 5; pp. 101 - 114 |
|---|---|
| Main Authors | , , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
西安电子科技大学空天地一体化综合业务网全国重点实验室,陕西 西安 710071
30.05.2024
西安电子科技大学杭州研究院,浙江 杭州 311200%西安电子科技大学空天地一体化综合业务网全国重点实验室,陕西 西安 710071 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 1000-436X |
| DOI | 10.11959/j.issn.1000-436x.2024100 |
Cover
| Summary: | TN92; 为应对在高通量多波束卫星系统中,随着波束数量和用户规模的扩大,频谱资源分配问题的维度急剧增加和求解复杂度呈指数级上升这一挑战,提出了一种结合行为克隆与深度强化学习的两阶段算法.第一阶段基于行为克隆,利用已有卫星资源分配决策数据对策略网络进行预训练,通过模仿专家行为减少盲目探索,加快算法收敛.第二阶段基于近端策略优化,进一步优化策略网络,并通过引入卷积注意力模块有效地提取用户业务状态特征,以提升算法整体性能.仿真结果表明,所提算法在收敛速度和算法稳定性方面均优于其他基准算法,并在系统时延、系统平均满意度和频谱效率等性能指标上表现更佳. |
|---|---|
| ISSN: | 1000-436X |
| DOI: | 10.11959/j.issn.1000-436x.2024100 |