KoBERT에서 데이터 불균형 문제 경감을 위한 정렬 알고리즘을 이용한 학습 데이터 구성
불균형 데이터로 학습한 모델은 소수의 이상 데이터에 대하여 분류를 잘 수행하지 못하게 된다. 정렬 알고리즘을 이용하여 자연어 처리에서의 불균형 문제를 경감하고자 한다. 각 정렬 알고리즘이 소비한 비용을 측정하고 비교하여 데이터 처리에 적합한 알고리즘을 도출한다. 정렬된 데이터는 세가지의 불균형 기준에 따라 전처리하여 학습 데이터를 생성하고, 이를 활용하여 자연어 처리 모델인 KoBERT 모델을 파인튜닝한다. 학습 데이터의 불균형 척도에 따른 정확도, 재현율, 정밀도를 측정하여 데이터 조정의 성능을 평가한다. 제안 방법을 통해 자연어...
Saved in:
Published in | 디지털콘텐츠학회논문지 Vol. 24; no. 7; pp. 1493 - 1498 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Korean |
Published |
한국디지털콘텐츠학회
01.07.2023
|
Subjects | |
Online Access | Get full text |
ISSN | 1598-2009 2287-738X |
DOI | 10.9728/dcs.2023.24.7.1493 |
Cover
Summary: | 불균형 데이터로 학습한 모델은 소수의 이상 데이터에 대하여 분류를 잘 수행하지 못하게 된다. 정렬 알고리즘을 이용하여 자연어 처리에서의 불균형 문제를 경감하고자 한다. 각 정렬 알고리즘이 소비한 비용을 측정하고 비교하여 데이터 처리에 적합한 알고리즘을 도출한다. 정렬된 데이터는 세가지의 불균형 기준에 따라 전처리하여 학습 데이터를 생성하고, 이를 활용하여 자연어 처리 모델인 KoBERT 모델을 파인튜닝한다. 학습 데이터의 불균형 척도에 따른 정확도, 재현율, 정밀도를 측정하여 데이터 조정의 성능을 평가한다. 제안 방법을 통해 자연어 처리에서 데이터 불균형 문제를 경감하기 위해서 정렬 알고리즘을 적용한 결과 문제를 경감할 수 있음을 확인했다. Models trained with imbalanced data do not perform well in classification for a small sample of abnormal data. We aim to reduce the imbalance problem in natural language processing by using a sorting algorithm. The computation cost of each sorting algorithm is measured and compared to derive an algorithm suitable for data processing. The sorted data are preprocessed according to three imbalance criteria to create training data and then fine-tuned using KoBERT which is a natural language processing model. The performance of data adjustment was evaluated by measuring accuracy, recall, and precision according to the imbalance scale of the training data. We confirmed that the data imbalance problem in natural language processing could be alleviated by applying the sorting algorithm of the proposed method. KCI Citation Count: 0 |
---|---|
Bibliography: | http://dx.doi.org/10.9728/dcs.2023.24.7.1493 |
ISSN: | 1598-2009 2287-738X |
DOI: | 10.9728/dcs.2023.24.7.1493 |