가중치 VAE 오버샘플링(W-VAE)을 이용한 보안데이터셋 샘플링 기법 연구

Recently, with the development of artificial intelligence technology, research to use artificial intelligence to detect hacking attacks is being actively conducted. However, the fact that security data is a representative imbalanced data is recognized as a major obstacle in composing the learning da...

Full description

Saved in:
Bibliographic Details
Published in한국정보통신학회논문지 Vol. 26; no. 12; pp. 1872 - 1879
Main Authors 강한바다(Hanbada Kang), 이재우(Jaewoo Lee)
Format Journal Article
LanguageKorean
Published 한국정보통신학회 2022
Subjects
Online AccessGet full text
ISSN2234-4772
2288-4165

Cover

More Information
Summary:Recently, with the development of artificial intelligence technology, research to use artificial intelligence to detect hacking attacks is being actively conducted. However, the fact that security data is a representative imbalanced data is recognized as a major obstacle in composing the learning data, which is the key to the development of artificial intelligence models. Therefore, in this paper, we propose a W-VAE oversampling technique that applies VAE, a deep learning generation model, to data extraction for oversampling, and sets the number of oversampling for each class through weight calculation using K-NN for sampling. In this paper, a total of five oversampling techniques such as ROS, SMOTE, and ADASYN were applied through NSL-KDD, an open network security dataset. The oversampling method proposed in this paper proved to be the most effective sampling method compared to the existing oversampling method through the F1-Score evaluation index. 최근 인공지능 기술이 발전하면서 해킹 공격을 탐지하기 위해 인공지능을 이용하려는 연구가 활발히 진행되고 있다. 하지만, 인공지능 모델 개발에 핵심인 학습데이터를 구성하는데 있어서 보안데이터가 대표적인 불균형 데이터라는 점이 큰 장애물로 인식되고 있다. 이에 본 눈문에서는 오버샘플링을 위한 데이터 추출에 딥러닝 생성 모델인 VAE를 적용하고 K-NN을 이용한 가중치 계산을 통해 클래스별 오버샘플링 개수를 설정하여 샘플링을 하는 W-VAE 오버샘플링 기법을 제안한다. 본 논문에서는 공개 네트워크 보안 데이터셋인 NSL-KDD를 통해 ROS, SMOTE, ADASYN 등 총 5가지 오버샘플링 기법을 적용하였으며 본 논문에서 제안한 오버샘플링 기법이 F1-Score 평가지표를 통해 기존 오버샘플링 기법과 비교하여 가장 효과적인 샘플링 기법임을 증명하였다.
Bibliography:KISTI1.1003/JNL.JAKO202203255726377
ISSN:2234-4772
2288-4165