分布式技术在大模型训练和推理中的应用

近几年，人工智能被广泛应用于多个领域，大语言模型（以下简称大模型）的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环，为大模型的发展助力。在数据获取环节，针对海量小文件的存储问题，研发了文件系统SuperFS，能够同时满足低延迟和可扩展的要求。在数据预处理环节，针对从分布式文件系统读取数据开销大的问题，研发了高效大数据处理引擎“诸葛弩”。在模型训练环节，针对检查点文件读写性能差的问题，提出了分布式检查点策略，加快了检查点文件的读写速度。在模型推理环节，针对KVCache对存储系统的挑战，研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分...

Full description

Saved in:

Bibliographic Details
Published in	大数据 Vol. 10; no. 5; pp. 1 - 10
Main Author	郑纬民
Format	Journal Article
Language	Chinese
Published	人民邮电出版社有限公司 15.09.2024 清华大学计算机科学与技术系,北京 100084 China InfoCom Media Group
Subjects	kvcache 分布式技术大数据处理引擎大模型检查点海量小文件分布式技术检查点大模型海量小文件大数据处理引擎 KVCache checkpoint massive small files big data processing engine distributed technology large language model
Online Access	Get full text
ISSN	2096-0271
DOI	10.11959/j.issn.2096-0271.2024056

Cover

More Information
Summary:	近几年，人工智能被广泛应用于多个领域，大语言模型（以下简称大模型）的“预训练-微调”成为人工智能的最新范式。分布式技术存在于大模型生命周期的每一环，为大模型的发展助力。在数据获取环节，针对海量小文件的存储问题，研发了文件系统SuperFS，能够同时满足低延迟和可扩展的要求。在数据预处理环节，针对从分布式文件系统读取数据开销大的问题，研发了高效大数据处理引擎“诸葛弩”。在模型训练环节，针对检查点文件读写性能差的问题，提出了分布式检查点策略，加快了检查点文件的读写速度。在模型推理环节，针对KVCache对存储系统的挑战，研发了高吞吐推理方案FastDecode以及大模型推理架构Mooncake。分布式技术的应用，使大模型能够充分利用计算资源，加快训练速度，有利于人工智能领域的发展。
ISSN:	2096-0271
DOI:	10.11959/j.issn.2096-0271.2024056