大语言模型研究现状与趋势

TP18; 在过去 20 年中,语言建模(Language models,LM)已经成为一种主要方法,用于语言理解和生成,同时作为自然语言处理(Natural language processing,NLP)领域下游的关键技术受到广泛关注.近年来,大语言模型(Large language models,LLMs),例如ChatGPT等技术,取得了显著进展,对人工智能乃至其他领域的变革和发展产生了深远的影响.鉴于LLMs迅猛的发展,本文首先对LLMs相关技术架构和模型规模等方面的演进历程进行了全面综述,总结了模型训练方法、优化技术以及评估手段.随后,分析了LLMs在教育、医疗、金融、工业等领域的...

Full description

Saved in:
Bibliographic Details
Published in工程科学学报 Vol. 46; no. 8; pp. 1411 - 1425
Main Authors 王耀祖, 李擎, 戴张杰, 徐越
Format Journal Article
LanguageChinese
Published 北京科技大学人工智能研究院,北京 100083%北京科技大学自动化学院,北京 100083 01.07.2024
北京科技大学智能科学与技术学院,北京 100083
北京科技大学工业过程知识自动化教育部重点实验室,北京 100083%北京科技大学冶金与生态工程学院,北京 100083
Subjects
Online AccessGet full text
ISSN2095-9389
DOI10.13374/j.issn2095-9389.2023.10.09.003

Cover

More Information
Summary:TP18; 在过去 20 年中,语言建模(Language models,LM)已经成为一种主要方法,用于语言理解和生成,同时作为自然语言处理(Natural language processing,NLP)领域下游的关键技术受到广泛关注.近年来,大语言模型(Large language models,LLMs),例如ChatGPT等技术,取得了显著进展,对人工智能乃至其他领域的变革和发展产生了深远的影响.鉴于LLMs迅猛的发展,本文首先对LLMs相关技术架构和模型规模等方面的演进历程进行了全面综述,总结了模型训练方法、优化技术以及评估手段.随后,分析了LLMs在教育、医疗、金融、工业等领域的应用现状,同时讨论了它们的优势和局限性.此外,还探讨了大语言模型针对社会伦理、隐私和安全等方面引发的安全性与一致性问题及技术措施.最后,展望了大语言模型未来的研究趋势,包括模型的规模与效能、多模态处理、社会影响等方面的发展方向.本文通过全面分析当前研究状况和未来走向,旨在为研究者提供关于大语言模型的深刻见解和启发,以推动该领域的进一步发展.
ISSN:2095-9389
DOI:10.13374/j.issn2095-9389.2023.10.09.003