전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가

Many statistical methods have been adapted for terminology recognition to improve its accuracy. However, since previous studies have been carried out in a single core or a single machine, they have difficulties in real-time analysing explosively increasing documents. In this study, the task where bo...

Full description

Saved in:
Bibliographic Details
Published in한국콘텐츠학회 논문지, 12(10) Vol. 12; no. 10; pp. 1 - 10
Main Authors 최윤수(Yunsoo Choi), 이원구(Wongoo Lee), 이민호(Minho Lee), 최동훈(Dong-Hoon Choi), 윤화묵(Hwamook Yoon), 송사광(Sa-kwang Song), 정한민(Hanmin Jung)
Format Journal Article
LanguageKorean
Published 한국콘텐츠학회 2012
Subjects
Online AccessGet full text
ISSN1598-4877
2508-6723
DOI10.5392/JKCA.2012.12.10.001

Cover

Abstract Many statistical methods have been adapted for terminology recognition to improve its accuracy. However, since previous studies have been carried out in a single core or a single machine, they have difficulties in real-time analysing explosively increasing documents. In this study, the task where bottlenecks occur in the process of terminology recognition is classified into linguistic processing in the process of 'candidate terminology extraction' and collection of statistical information in the process of 'terminology weight assignment'. A terminology recognition system is implemented and experimented to address each task by means of the distributed parallel processing-based MapReduce. The experiments were performed in two ways; the first experiment result revealed that distributed parallel processing by means of 12 nodes improves processing speed by 11.27 times as compared to the case of using a single machine and the second experiment was carried out on 1) default environment, 2) multiple reducers, 3) combiner, and 4) the combination of 2)and 3), and the use of 3) showed the best performance. Our terminology recognition system contributes to speed up knowledge extraction of large scale science and technology documents. 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.
AbstractList 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 ‘후보용어 추출 과정’의 언어처리 부분과 ‘용어 가중치 할당 과정’에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업 속도 개선에 기여하였다. Many statistical methods have been adapted for terminology recognition to improve its accuracy. However, since previous studies have been carried out in a single core or a single machine, they have difficulties in real-time analysing explosively increasing documents. In this study, the task where bottlenecks occur in the process of terminology recognition is classified into linguistic processing in the process of 'candidate terminology extraction' and collection of statistical information in the process of 'terminology weight assignment'. A terminology recognition system is implemented and experimented to address each task by means of the distributed parallel processing-based MapReduce. The experiments were performed in two ways; the first experiment result revealed that distributed parallel processing by means of 12 nodes improves processing speed by 11.27 times as compared to the case of using a single machine and the second experiment was carried out on 1) default environment, 2) multiple reducers, 3) combiner, and 4) the combination of 2)and 3), and the use of 3) showed the best performance. Our terminology recognition system contributes to speed up knowledge extraction of large scale science and technology documents. KCI Citation Count: 0
Many statistical methods have been adapted for terminology recognition to improve its accuracy. However, since previous studies have been carried out in a single core or a single machine, they have difficulties in real-time analysing explosively increasing documents. In this study, the task where bottlenecks occur in the process of terminology recognition is classified into linguistic processing in the process of 'candidate terminology extraction' and collection of statistical information in the process of 'terminology weight assignment'. A terminology recognition system is implemented and experimented to address each task by means of the distributed parallel processing-based MapReduce. The experiments were performed in two ways; the first experiment result revealed that distributed parallel processing by means of 12 nodes improves processing speed by 11.27 times as compared to the case of using a single machine and the second experiment was carried out on 1) default environment, 2) multiple reducers, 3) combiner, and 4) the combination of 2)and 3), and the use of 3) showed the best performance. Our terminology recognition system contributes to speed up knowledge extraction of large scale science and technology documents. 과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는 단일-코어 또는 단일 머신 상에서 수행되었기 때문에, 폭발적으로 증가하는 문헌들에 대한 실시간 분석 요구를 처리할 수 없는 상황에 직면하고 있다. 본 논문에서는 전문용어를 인식하는 과정에서 병목현상이 발생하는 작업을 '후보용어 추출 과정'의 언어처리부분과 '용어 가중치 할당 과정'에서 통계정보를 취합하는 부분으로 분류하고, 각 작업을 분산병렬 처리 기반의 맵리듀스 작업을 이용하여 해결하는 전문용어 인식 방법을 구현하고 실험하였다. 실험은 확장성과 분산 병렬 처리 환경 최적화 두 가지로 수행하였고, 첫 번째 실험에서 12개의 노드를 사용하여 분산 병렬 처리하였을 때 단일 머신을 사용한 경우보다 11.27배의 처리속도 향상을 보였다. 두 번째 실험에서 1)기본 환경, 2)복수 리듀서, 3)컴바이너, 4) 2)와 3)의 조합에 대하여 수행하였고, 3)컴바이너 사용이 가장 우수한 성능을 보여 주었다. 본 논문에서 구현된 전문용어 인식 시스템은 대용량 과학기술 문헌에 대한 지식 추출 작업속도 개선에 기여하였다.
Author 이민호(Minho Lee)
최윤수(Yunsoo Choi)
송사광(Sa-kwang Song)
최동훈(Dong-Hoon Choi)
정한민(Hanmin Jung)
윤화묵(Hwamook Yoon)
이원구(Wongoo Lee)
Author_xml – sequence: 1
  fullname: 최윤수(Yunsoo Choi)
– sequence: 2
  fullname: 이원구(Wongoo Lee)
– sequence: 3
  fullname: 이민호(Minho Lee)
– sequence: 4
  fullname: 최동훈(Dong-Hoon Choi)
– sequence: 5
  fullname: 윤화묵(Hwamook Yoon)
– sequence: 6
  fullname: 송사광(Sa-kwang Song)
– sequence: 7
  fullname: 정한민(Hanmin Jung)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART001707598$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNpNkE1L40AcxgdRsKt-Ai9zEbyk_mcmk8wcS31ZX7AgvQ-TJpFQTaXZPXhbJR5WhSLoskoqPagg9lBf8eAnMpPvsHXdw8IDv-fw4zk8X9Bo3IoDhKYJlDmTdG5ltVopUyC0_BEoA5ARVKIchOW4lI2iEuFSWLZw3XE0lSSRB8AZOMShJaRNL837r-bi1vx6wqb7ao662Bxl5vCqOMhMN8UmS4uzDOcvqdkf4PzxJO_1sXn4nd_0cXF6nF_eFZ03bJ4z09srzk9xPuhgk97nh9dF5-f74MckGgv1VhJM_eMEqi8u1KtfrbXa0nK1smY1JXMtmzW8RiCJ5wvNwecOBc-1iU1CCB3wnFD7ju8F2iMa7FD6UoYcHB6ExBYedYFNoNnP2bgdqmYjUi0d_eVmSzXbqrJRX1aSMcrtoTrzqTaj5FukYj_ZUiuV1drHh4wxzoUUtvjPi7-3o-3Aj7TaGRbd3lXrtfkFoMOnhXTZH1x4jr8
ContentType Journal Article
DBID DBRKI
TDB
JDI
ACYCR
DEWEY 005.7
DOI 10.5392/JKCA.2012.12.10.001
DatabaseName DBPIA - 디비피아
Nurimedia DBPIA Journals
[Open Access] KoreaScience
Korean Citation Index
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
Discipline Computer Science
DocumentTitleAlternate Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System
DocumentTitle_FL Optimization and Performance Analysis of Distributed Parallel Processing Platform for Terminology Recognition System
EISSN 2508-6723
EndPage 10
ExternalDocumentID oai_kci_go_kr_ARTI_933254
JAKO201233355898484
NODE02001897
GroupedDBID .UV
ALMA_UNASSIGNED_HOLDINGS
DBRKI
TDB
JDI
ACYCR
M~E
ID FETCH-LOGICAL-k937-43cbce91bd8a50d5620b74141f0f60b6fad6dbeab1a04f9d99f5065ef148b2703
ISSN 1598-4877
IngestDate Tue Nov 21 21:41:19 EST 2023
Fri Dec 22 12:03:55 EST 2023
Thu Feb 06 13:49:59 EST 2025
IsDoiOpenAccess true
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Issue 10
Keywords Terminology Recognition
하둡
분산병렬처리
최적화
Hadoop
전문용어인식
맵리듀스
Distributed Parallel Processing
MapReduce
|
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k937-43cbce91bd8a50d5620b74141f0f60b6fad6dbeab1a04f9d99f5065ef148b2703
Notes KISTI1.1003/JNL.JAKO201233355898484
G704-001475.2012.12.10.044
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201233355898484&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 10
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_933254
kisti_ndsl_JAKO201233355898484
nurimedia_primary_NODE02001897
PublicationCentury 2000
PublicationDate 2012
PublicationDateYYYYMMDD 2012-01-01
PublicationDate_xml – year: 2012
  text: 2012
PublicationDecade 2010
PublicationTitle 한국콘텐츠학회 논문지, 12(10)
PublicationTitleAlternate The Journal of the Korea Contents Association
PublicationYear 2012
Publisher 한국콘텐츠학회
Publisher_xml – name: 한국콘텐츠학회
SSID ssib005306162
ssib036279156
ssib001107260
ssib053377518
ssib030194663
ssib044738273
Score 1.4844717
Snippet Many statistical methods have been adapted for terminology recognition to improve its accuracy. However, since previous studies have been carried out in a...
과학기술 문헌의 전문용어 인식 분야는 지금까지 다양한 통계적 방법론을 사용하여 용어 인식 정확률을 향상시키기 위하여 연구되어 왔다. 하지만 기존의 연구는...
SourceID nrf
kisti
nurimedia
SourceType Open Website
Open Access Repository
Publisher
StartPage 1
SubjectTerms 학제간연구
Title 전문용어 인식 시스템을 위한 분산 병렬 처리 플랫폼 최적화 및 성능평가
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE02001897
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201233355898484&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART001707598
Volume 12
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 한국콘텐츠학회 논문지, 2012, 12(10), , pp.1-10
journalDatabaseRights – providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources (ISSN International Center)
  customDbUrl:
  eissn: 2508-6723
  dateEnd: 99991231
  omitProxy: true
  ssIdentifier: ssib044738273
  issn: 1598-4877
  databaseCode: M~E
  dateStart: 20060101
  isFulltext: true
  titleUrlDefault: https://road.issn.org
  providerName: ISSN International Centre
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR3LbtNA0GrLAS68EeVRGYk9VYFdZ-3sHm0nUWlFeylSb5Yd21UVlKLSXjggQOFAi1SQCgKUoh4ACdFDeaoHvgg7_8DM2kncKhKPizOand2Z3bE9M5v1jKZdRRPmGw1RiiACKnHJ4JkTpiyFlDYM6vtwX-H3zjdnralbfHrBXBgZfVY4tbS2Glxr3Bv6Xcn_aBVwoFf8SvYfNNsfFBAAg37hChqG61_pmNRcYlMiOKk5xHaJIxAjbWJLBVjE4ZMKquZtwgF4sge5CgByGKBKhJljgFrk_Vw1eJVIbJtENo6lUNBgEIdmqDKRTIlAQQrV0TGIFAplZSgYArxWF1GyRmxHMawTJyfvscbZMEUtoUM2OqDqmcicOIoPimzmIwiYqq2IaNHR7gutWk1iVxWfqhIrmytVGIE8c2KpADuXE2gc98DK2pUeF7hFD8gNVztbFUGkKJLg0qsW6SiWmTTuEBJgVFcclZCOGMLIwRnnYgIsins2zCgaGIkbuHnpmp4FMopPGi3YE1ZwTLKGwybPBAcXq3nPuDYeVDRwc1sdV2QDC9871XDI8PePY07bM3PYt1zGZPtScMFHtSMG7nDhYdj7tYGDzWjFKATUJkScbJBwEqwF1ivov_HBO6pINsjWxHmlLAoOM8QaFfzfTyU1zhcmSw2G07o-ZFIQQ2JgtQSuYGsFPMijrTUsgwHv0oJbOH9SO57Hc7qdPZyntJHm8mntRK9Wip6bzjOan-60k9399M3H9OU3Pd3eTze29XSjk66_6z7upNttPe20uy86evKjnT7a05Ovz5OdXT398ir5sKt3t54mbz91N3_q6fdOuvOw-3pLT_Y29bT9OVl_39188mvvwVltvl6bd6dKeXmTUhNighIvN4JGJFkQCt-kIcQhNAD3nrOYxhYNrNjHWm-RHzCf8liGUsYmxAtRzLgIDDDU57Sx1nIrOq_pIYvDRkCFb4WcGxUujCiSMcQqnPng0Pjj2oRaNK8V3r3tDdH2uHYFVtNrNpY8TDePv4vLXnPFg6D6hifLZcMEmon-Wnt3slQ43uxctUbxWKaQlQt_4nJRO4aYbAPzkja2urIWXQaXfjWYUHfZb52JxdQ
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EC%A0%84%EB%AC%B8%EC%9A%A9%EC%96%B4+%EC%9D%B8%EC%8B%9D+%EC%8B%9C%EC%8A%A4%ED%85%9C%EC%9D%84+%EC%9C%84%ED%95%9C+%EB%B6%84%EC%82%B0+%EB%B3%91%EB%A0%AC+%EC%B2%98%EB%A6%AC+%ED%94%8C%EB%9E%AB%ED%8F%BC+%EC%B5%9C%EC%A0%81%ED%99%94+%EB%B0%8F+%EC%84%B1%EB%8A%A5%ED%8F%89%EA%B0%80&rft.jtitle=%ED%95%9C%EA%B5%AD%EC%BD%98%ED%85%90%EC%B8%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80&rft.au=%EC%B5%9C%EC%9C%A4%EC%88%98&rft.au=%EC%9D%B4%EC%9B%90%EA%B5%AC&rft.au=%EC%9D%B4%EB%AF%BC%ED%98%B8&rft.au=%EC%B5%9C%EB%8F%99%ED%9B%88&rft.date=2012&rft.issn=1598-4877&rft.volume=12&rft.issue=10&rft.spage=1&rft.epage=10&rft_id=info:doi/10.5392%2FJKCA.2012.12.10.001&rft.externalDBID=n%2Fa&rft.externalDocID=JAKO201233355898484
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1598-4877&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1598-4877&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1598-4877&client=summon