학습 데이터 선별을 위한 오토인코더 기반 학습 개선도 측정 방안
머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습 데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만...
Saved in:
Published in | Chŏngbo Kwahakhoe nonmunji pp. 195 - 200 |
---|---|
Main Authors | , , |
Format | Journal Article |
Language | Korean |
Published |
한국정보과학회
01.02.2021
|
Subjects | |
Online Access | Get full text |
ISSN | 2383-630X 2383-6296 |
DOI | 10.5626/JOK.2021.48.2.195 |
Cover
Summary: | 머신러닝 알고리즘은 최근의 우수한 성능에도 불구하고 개발과 사용을 어렵게 하는 단점이 있다. 이는 머신러닝 알고리즘의 최적 모델 개발과 배포까지의 반복적인 과정이 높은 시간 비용을 요구하기 때문이다. 이에 본 논문에서는 이러한 시간 부하를 줄이기 위한 방안으로, 전체 학습 데이터셋 중 일부 데이터를 선별하여 빠르게 학습하면서도 근사 솔루션을 제공할 수 있는 방법에 관하여 논한다. 먼저 학습 데이터는 오토인코더에 기반하여 저차원 잠재공간의 특징 벡터로 맵핑된다. 그리고 맵핑된 각 샘플의 위치를 기반으로, 상대적으로 학습하기는 어렵지만 학습 개선도가 높은 샘플은 높은 가중치를 부여받는다. 최종적으로 가중치를 기반으로 한 중요도 샘플링을 수행하여 데이터를 선별하고 이를 학습에 활용한다. 실험 결과, 제안하는 방법이 무작위 샘플링에 비해 더 높은 학습 성과를 달성하는 샘플을 선정할 수 있음을 보일 수 있었다. Despite recent significant performance improvements, the iterative process of machinelearning algorithms makes development and utilization difficult and time-consuming. In this paper, we present a data-selection method that reduces the time required by providing an approximate solution . First, data are mapped to a feature vector in latent space based on an Autoencoder, with high weight given to data with high learning contribution that are relatively difficult to learn. Finally, data are ranked and selected based on weight and used for training. Experimental results showed that the proposed method selected data that achieve higher performance than random sampling. KCI Citation Count: 0 |
---|---|
ISSN: | 2383-630X 2383-6296 |
DOI: | 10.5626/JOK.2021.48.2.195 |