한국어 특허 문장 기반 CPC 자동분류 연구 ―인공지능 언어모델 KorPatBERT를 활용한 딥러닝 기법 접근

4차 산업혁명과 맞물려 다양한 신기술 출현으로, 지식재산권의 확보는 국가 및 기업의 기술 경쟁력 유지 및 신성장 동력 구축에 있어 중요성이 날로 커지고 있다. 그중 특허는 보유기업의 핵심 기술을 포함하고 있는 문서로서, 기업 가치 측정 및 경쟁 기술분야 분석에 많이 활용되고 있다. 이러한 특허 분석을 효율적으로 진행하기 위해서 최신 및 상세한 기술분야를 포함한 CPC(선진특허분류)가 개발되었다. CPC는 현존하는 특허분류체계 중 가장 세분화된 코드 수를 가지고 있고, 현재까지 전 세계 6,200만 건 이상의 문헌들이 CPC로 분류되...

Full description

Saved in:
Bibliographic Details
Published in지식재산연구 Vol. 17; no. 3; pp. 209 - 256
Main Authors 박진우, Park Jinwoo, 심우철, Sim Woochul, 이상헌, Lee Sanghun, 고봉수, Ko Bongsoo, 노한성, Noh Hansung
Format Journal Article
LanguageKorean
Published 한국지식재산연구원 30.09.2022
Subjects
Online AccessGet full text
ISSN1975-5945
2733-8487
DOI10.34122/jip.2022.17.3.209

Cover

More Information
Summary:4차 산업혁명과 맞물려 다양한 신기술 출현으로, 지식재산권의 확보는 국가 및 기업의 기술 경쟁력 유지 및 신성장 동력 구축에 있어 중요성이 날로 커지고 있다. 그중 특허는 보유기업의 핵심 기술을 포함하고 있는 문서로서, 기업 가치 측정 및 경쟁 기술분야 분석에 많이 활용되고 있다. 이러한 특허 분석을 효율적으로 진행하기 위해서 최신 및 상세한 기술분야를 포함한 CPC(선진특허분류)가 개발되었다. CPC는 현존하는 특허분류체계 중 가장 세분화된 코드 수를 가지고 있고, 현재까지 전 세계 6,200만 건 이상의 문헌들이 CPC로 분류되었다. 매해 신규 특허출원의 CPC 분류를 위해 전 세계 특허 출원의 약 80% 이상을 차지하는 선진 5개 특허청을 중심으로 많은 예산과 인력을 투입하고 있으며, 최근 인공지능 기술을 활용한 자동화된 분류 모델에 대한 연구·개발을 추진 중에 있다. 본 연구에서는 키워드의 한계를 벗어나 문맥과 문장에 내포된 의미를 이해하는 인공지능 언어모델인 BERT 기반의 특허문헌 사전학습을 진행하여, 특허분야에서 기존 모델 대비 우수한 KorPatBERT를 생성하였다. 그리고 CPC 코드별 불균형적인 데이터 분포를 완화한 효과적인 분류 학습데이터 셋 구축방안을 제안하고 생성하였다. 최종적으로 실서비스 가능한 수준의 CPC 서브클래스 및 메인그룹의 분류를 가능케 하는 모델을 생성하였고, 객관적인 평가지표를 통하여 그 실효성을 성공적으로 검증하였다. 이러한 연구를 통하여 향후 한국어 특허 기반 분류 및 자연어처리 관련 분야의 지속가능한 발전에 기여하고자 한다. With the advent of various new technologies in the 4th industrial revolution, securing intellectual property rights has become increasingly important to countries or companies for maintaining technological competitiveness and building growth engines. In particular, a patent is a technical document that contains the core technology and is widely used for measuring corporate value and analyzing competitive technologies. To make this support, the CPC that including latest and detailed technical fields has been developed and more than 62 million documents worldwide have been classified as CPC. And five advanced patent offices which account for more than 80% of the world’s patent applications invest big budget for CPC of new patent applications every year. In this study, we had generated the KorPatBERT that was pre-trained and outperformed in patent field using the BERT language model which understands the meaning of sentences beyond the limits of keywords. And we proposed the methods and constructed the dataset that relieved imbalanced distribution for each CPC code. And finally, we had generated the AI CPC model that can classify into main group level and verified through reliable evaluation indicators. Through this, we want to contribute the sustainable development of Korean patent based classification and NLP field.
Bibliography:Korea Institute of Intellectual Property
ISSN:1975-5945
2733-8487
DOI:10.34122/jip.2022.17.3.209