심층신경망으로 가는 통계 여행, 세 번째 여행: 언어모형과 트랜스포머

Over the past decade, the remarkable advancements in deep neural networks have paralleled the development and evolution of language models. Initially, language models were developed in the form of Encoder-Decoder models using early RNNs. However, with the introduction of Attention in 2015 and the em...

Full description

Saved in:
Bibliographic Details
Published inŬngyong tʻonggye yŏnʼgu Vol. 37; no. 5; pp. 567 - 582
Main Authors 김유진(Yu Jin Kim), 황인준(In Jun Hwang), 장기석(Kisuk Jang), 이윤동(Yoon Dong Lee)
Format Journal Article
LanguageKorean
Published 한국통계학회 2024
Subjects
Online AccessGet full text
ISSN1225-066X
2383-5818

Cover

More Information
Summary:Over the past decade, the remarkable advancements in deep neural networks have paralleled the development and evolution of language models. Initially, language models were developed in the form of Encoder-Decoder models using early RNNs. However, with the introduction of Attention in 2015 and the emergence of the Transformer in 2017, the field saw revolutionary growth. This study briefly reviews the development process of language models and examines in detail the working mechanism and technical elements of the Transformer. Additionally, it explores statistical models and methodologies related to language models and the Transformer. 지난 10년의 기간 심층신경망의 비약적 발전은 언어모형의 개발과 그 발전을 함께 해 왔다. 언어모형은 초기 RNN을 이용한 encoder-decoder 모형의 형태로 개발되었으나, 2015년 attention이 등장하고, 2017년 transformer가 등장하여 혁명적 기술로 성장하였다. 본 연구에서는 언어모형의 발전과정을 간략하게 살펴보고, 트랜스포머의 작동원리와 기술적 요소에 대하여 구체적으로 살펴본다. 동시에 언어모형, 트랜스포머와 관련되는 통계모형과, 방법론에 대하여 함께 검토한다.
Bibliography:KISTI1.1003/JNL.JAKO202433861637618
ISSN:1225-066X
2383-5818