잡음 정제를 통한 고응집도 군집과 후반부 요약을 이용한 효과적인 뉴스 요약

뉴스에서는 다양한 언론사가 동일한 사건을 다루는 기사를 중복으로 발행하므로 정보의 중복성이 크다. 유사한 기사를 군집화하고 그 내용을 적절히 요약하여 제공하면 사용자는 뉴스 동향을 빠르게 파악하고 자세하게 읽어야 하는 기사를 쉽게 선택할 수 있다. 본 논문에서는 효과적인 뉴스 요약을 제공하기 위해 HDBSCAN으로 최초 군집을 생성한 뒤에 Mean-Shift와 노이즈 정제를 적용하여 응집도가 높은 군집을 얻는 방법을 제안한다. 요약 생성에서는 군집 내 기사의 후반부에서 얻은 요약 중에서 군집을 대표할 수 있는 요약을 요약 평가 메트...

Full description

Saved in:
Bibliographic Details
Published in디지털콘텐츠학회논문지 Vol. 25; no. 8; pp. 2165 - 2174
Main Authors 한성민(Seongmin Han), 백대환(Daehwan Baek), 이현아(Hyunah Lee)
Format Journal Article
LanguageKorean
Published 한국디지털콘텐츠학회 01.08.2024
Subjects
Online AccessGet full text
ISSN1598-2009
2287-738X
DOI10.9728/dcs.2024.25.8.2165

Cover

More Information
Summary:뉴스에서는 다양한 언론사가 동일한 사건을 다루는 기사를 중복으로 발행하므로 정보의 중복성이 크다. 유사한 기사를 군집화하고 그 내용을 적절히 요약하여 제공하면 사용자는 뉴스 동향을 빠르게 파악하고 자세하게 읽어야 하는 기사를 쉽게 선택할 수 있다. 본 논문에서는 효과적인 뉴스 요약을 제공하기 위해 HDBSCAN으로 최초 군집을 생성한 뒤에 Mean-Shift와 노이즈 정제를 적용하여 응집도가 높은 군집을 얻는 방법을 제안한다. 요약 생성에서는 군집 내 기사의 후반부에서 얻은 요약 중에서 군집을 대표할 수 있는 요약을 요약 평가 메트릭에 기반하여 선택하고 이를 기사의 리드 또는 전반부 요약과 결합하여 제공하는 방식을 제안한다. 실험 결과 Mean-Shift 적용과 노이즈 제거를 이용한 군집화와 후반부 요약을 추가한 요약 생성 모두에서 성능 향상을 얻어 뉴스 요약에서의 효율성을 확인했다. News articles often present high redundancy due to multiple outlets covering the same events. Clustering similar articles and summarizing them allows users to quickly understand trends and focus on articles requiring detailed reading. This paper proposes a method that begins with HDBSCAN clustering and applies Mean-Shift and noise refinement to enhance cluster cohesion. For summary generation, we introduce a strategy that selects representative summaries from the latter half of articles within clusters, evaluated using a summary metric. These are combined with lead summaries from the articles’ first-halves. Experiment results demonstrate efficiency gains in news summarization with improved clustering performance and summary quality through the inclusion of second-half summaries. KCI Citation Count: 0
ISSN:1598-2009
2287-738X
DOI:10.9728/dcs.2024.25.8.2165