공공데이터의 도메인 자동 판별 정확도 향상을 위한 정규표현식 및 접미사 적용 방법
본 연구에서 csv포맷으로 구조화된 파일 데이터의 컬럼의 도메인을 자동 판별하는 방법을 제안한다. 데이터와 데이터 간 융합을 통해 새로운 데이터를 생성할 수 있고, 이들 새로운 데이터가 중요한 자원이 되기 위해서는 조인 되는 컬럼의 일관성이 유지되어야 한다. 데이터 품질을 측정하기 위한 방법 중의 하나가 도메인 기반 품질 진단 방법이다. 도멘인이란 각 컬럼의 성격을 규정하는 가장 광범위한 지표이므로 이를 자동으로 판별하는 방법이 필요하다. 기존의 연 구에서는 관계형 데이터베이스의 도메인 자동 판별이 주로 연구 되었지만 본 연구는 파...
Saved in:
Published in | The journal of the institute of internet, broadcasting and communication : JIIBC Vol. 22; no. 4; pp. 81 - 86 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Korean |
Published |
한국인터넷방송통신학회
31.08.2022
|
Subjects | |
Online Access | Get full text |
ISSN | 2289-0238 2289-0246 |
DOI | 10.7236/JIIBC.2022.22.4.81 |
Cover
Table of Contents:
- 요약 Abstract Ⅰ. 서론 Ⅱ. 이론적 배경 1. 도메인 기반 데이터 품질진단 방법 2. 기계학습을 통한 도메인 자동 판별 연구 Ⅲ.파일 데이터의 도메인 자동 판별 1. 컬럼명 접미사의 파생변수 2. 정규표현식 패턴의 파생변수 3. 데이터 수집 및 도메인 판별 프로세스 Ⅳ. 연구 결과 Ⅴ. 결론 References