심층신경망으로 가는 통계 여행, 세 번째 여행: 언어모형과 트랜스포머
Over the past decade, the remarkable advancements in deep neural networks have paralleled the development and evolution of language models. Initially, language models were developed in the form of Encoder-Decoder models using early RNNs. However, with the introduction of Attention in 2015 and the em...
Saved in:
Published in | Ŭngyong tʻonggye yŏnʼgu Vol. 37; no. 5; pp. 567 - 582 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Korean |
Published |
한국통계학회
2024
|
Subjects | |
Online Access | Get full text |
ISSN | 1225-066X 2383-5818 |
Cover
Summary: | Over the past decade, the remarkable advancements in deep neural networks have paralleled the development and evolution of language models. Initially, language models were developed in the form of Encoder-Decoder models using early RNNs. However, with the introduction of Attention in 2015 and the emergence of the Transformer in 2017, the field saw revolutionary growth. This study briefly reviews the development process of language models and examines in detail the working mechanism and technical elements of the Transformer. Additionally, it explores statistical models and methodologies related to language models and the Transformer. 지난 10년의 기간 심층신경망의 비약적 발전은 언어모형의 개발과 그 발전을 함께 해 왔다. 언어모형은 초기 RNN을 이용한 encoder-decoder 모형의 형태로 개발되었으나, 2015년 attention이 등장하고, 2017년 transformer가 등장하여 혁명적 기술로 성장하였다. 본 연구에서는 언어모형의 발전과정을 간략하게 살펴보고, 트랜스포머의 작동원리와 기술적 요소에 대하여 구체적으로 살펴본다. 동시에 언어모형, 트랜스포머와 관련되는 통계모형과, 방법론에 대하여 함께 검토한다. |
---|---|
Bibliography: | KISTI1.1003/JNL.JAKO202433861637618 |
ISSN: | 1225-066X 2383-5818 |