基于联邦分割学习与低秩适应的RoBERTa预训练模型微调方法
TP181; 微调后的大语言模型(Large language models,LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险.联邦学习(Federated learning,FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致在边缘网络中部署困难.结合分割学习(Split learning,SL),联邦分割学习可以有效解决这一问题.基于模型深层权重的影响更为显著,以及对部分层的训练准确率略低于整体模型训练的发现,本文按照Transformer层对模型进行分割,同时引入低秩适应(Low-rank adaption,LoRA)进一步降低...
Saved in:
Published in | 数据采集与处理 Vol. 39; no. 3; pp. 577 - 587 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Chinese |
Published |
上海科技大学信息科学与技术学院,上海 201210
01.05.2024
|
Subjects | |
Online Access | Get full text |
ISSN | 1004-9037 |
DOI | 10.16337/j.1004-9037.2024.03.006 |
Cover
Summary: | TP181; 微调后的大语言模型(Large language models,LLMs)在多任务中表现出色,但集中式训练存在用户隐私泄漏的风险.联邦学习(Federated learning,FL)通过本地训练避免了数据共享,但LLMs庞大的参数量对资源受限的设备和通信带宽构成挑战,导致在边缘网络中部署困难.结合分割学习(Split learning,SL),联邦分割学习可以有效解决这一问题.基于模型深层权重的影响更为显著,以及对部分层的训练准确率略低于整体模型训练的发现,本文按照Transformer层对模型进行分割,同时引入低秩适应(Low-rank adaption,LoRA)进一步降低资源开销和提升安全性.因此,在设备端,仅对最后几层进行低秩适应和训练,然后上传至服务器进行聚合.为了降低开销并保证模型性能,本文提出了基于联邦分割学习与LoRA的RoBERTa预训练模型微调方法.通过联合优化边缘设备的计算频率和模型微调的秩,在资源受限的情况下最大化秩,提高模型的准确率.仿真结果显示,仅训练LLMs最后3层的情况下,在一定范围内(1~32)增加秩的取值可以提高模型的准确率.同时,增大模型每轮的容忍时延和设备的能量阈值可以进一步提升模型的准确率. |
---|---|
ISSN: | 1004-9037 |
DOI: | 10.16337/j.1004-9037.2024.03.006 |