경기 기록 통계와 뉴스 기사에 대한 자연어처리를 결합한 야구 승부 예측 시스템
대량의 데이터가 잘 정의된 형태로 축적된 스포츠 분야는 기계학습을 적용하기에 매우 적합한 응용 분야로 이전 경기에 대한 통계에 기반하는 다양한 승부 예측이 시도되어왔다. 하지만 이 방식은 시시때때로 변화하는 선수들의 상태와 팀 분위기 등 경기 외적 요인을 반영할 수 없다. 본 연구에서는 기록의 스포츠라고 불리는 야구의 승부 예측에 이전 경기 통계와 함께 경기 전 뉴스 기사를 활용한 방법을 제안한다. 제안 시스템에서는 자연어처리 사전학습모델인 KoBERT를 활용하여 뉴스 기사의 긍부정 이진 분류와 뉴스 기사 임베딩 벡터 각각을 얻어...
Saved in:
Published in | 디지털콘텐츠학회논문지 Vol. 24; no. 5; pp. 1041 - 1047 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Korean |
Published |
한국디지털콘텐츠학회
01.05.2023
|
Subjects | |
Online Access | Get full text |
ISSN | 1598-2009 2287-738X |
DOI | 10.9728/dcs.2023.24.5.1041 |
Cover
Summary: | 대량의 데이터가 잘 정의된 형태로 축적된 스포츠 분야는 기계학습을 적용하기에 매우 적합한 응용 분야로 이전 경기에 대한 통계에 기반하는 다양한 승부 예측이 시도되어왔다. 하지만 이 방식은 시시때때로 변화하는 선수들의 상태와 팀 분위기 등 경기 외적 요인을 반영할 수 없다. 본 연구에서는 기록의 스포츠라고 불리는 야구의 승부 예측에 이전 경기 통계와 함께 경기 전 뉴스 기사를 활용한 방법을 제안한다. 제안 시스템에서는 자연어처리 사전학습모델인 KoBERT를 활용하여 뉴스 기사의 긍부정 이진 분류와 뉴스 기사 임베딩 벡터 각각을 얻어 통계 정보에 추가로 적용하였다. 결과에서는 통계기반 시스템은 0.6508의 정확도를 보인 것에 비해, 뉴스 기사의 긍부정 이진 분류를 추가하여 0.7222, 기사 임베딩 벡터를 추가하여 0.7430의 정확도를 얻어, 자연어처리 도입으로 인한 성능 향상을 확인할 수 있었다. The field of sports, which provides a large amount of accumulated data in a well-defined form, is suited to machine learning applications, so match predictions based on those statistics have been attempted, but they cannot reflect external factors, such as the changing conditions of players and team. In this paper, we propose the use of pre-game news articles along with game statistics for baseball match prediction. In the proposed system, positive-negative binary classification of news articles and news article embedding vectors is achieved by the natural language processing pre-trained model KoBERT and added to statistical information for prediction. While the statistics-based system showed an accuracy of 0.6508, the accuracy rate obtained by adding binary classification of news articles was 0.7222 and that by adding the article embedding vector was 0.7430. KCI Citation Count: 0 |
---|---|
ISSN: | 1598-2009 2287-738X |
DOI: | 10.9728/dcs.2023.24.5.1041 |