기사체-방송체 텍스트 스타일 변환 연구

뉴스 텍스트-음성 변환 과정에는 기사체-방송체 변환이 요구된다. 기사체-방송체는 content 훼손에 민감하다는 특성을 가지고, 기사체의 괄호와 종결어미를 처리하여 방송체로의 변환이 가능하다. 스타일 토큰 기반 텍스트 스타일 변환 모델은 문장의 일부분만 변형하기 때문에, content 훼손을 최소화할 수 있어 기사체-방송체 변환에 적합하다. 그러나 기존 연구에서는 비병렬 데이터를 사용하여 스타일 토큰 학습이 어렵다는 단점이 있다. 병렬 데이터는 같은 content를 가진 두 문장에서 다른 부분을 명확한 스타일 토큰으로 구분 가능하지...

Full description

Saved in:
Bibliographic Details
Published in디지털콘텐츠학회논문지 Vol. 24; no. 2; pp. 267 - 272
Main Authors 김경민(Kyung Min Kim), 임상훈(Sang Hun Im), 김기백(Gi Baeg Kim), 오흥선(Heung-Seon Oh)
Format Journal Article
LanguageKorean
Published 한국디지털콘텐츠학회 01.02.2023
Subjects
Online AccessGet full text
ISSN1598-2009
2287-738X
DOI10.9728/dcs.2023.24.2.267

Cover

Abstract 뉴스 텍스트-음성 변환 과정에는 기사체-방송체 변환이 요구된다. 기사체-방송체는 content 훼손에 민감하다는 특성을 가지고, 기사체의 괄호와 종결어미를 처리하여 방송체로의 변환이 가능하다. 스타일 토큰 기반 텍스트 스타일 변환 모델은 문장의 일부분만 변형하기 때문에, content 훼손을 최소화할 수 있어 기사체-방송체 변환에 적합하다. 그러나 기존 연구에서는 비병렬 데이터를 사용하여 스타일 토큰 학습이 어렵다는 단점이 있다. 병렬 데이터는 같은 content를 가진 두 문장에서 다른 부분을 명확한 스타일 토큰으로 구분 가능하지만, 구축에 비교적 많은 비용이 요구된다. 프롬프팅을 적용하여 학습에 요구되는 데이터를 줄일 수 있으나, 기존 방식으로는 스타일 토큰의 content 유지가 불가하다는 문제가 발생한다. 본 논문에서는 기사체-방송체 병렬 데이터 2,000건을 구축하였으며, 스타일 토큰의 content를 유지시키는 콘텐트 마커 프롬프팅을 새롭게 제안하였다. 또한 기사체-방송체 데이터셋에서 EM 0.9978의 높은 성능을 달성하였다. The news text-to-voice conversion process requires article-broadcast style transfer. The article-broadcast style has the characteristic of being sensitive to content corruption, and can be converted into a broadcast style by processing the parentheses and final suffixes of the article style. Since the style token-based text style transfer model modifies only a portion of the sentence, it is suitable for article-broadcast transfer as it can minimize content corruption. However, there is a disadvantage that learning style tokens are difficult in studies using non-parallel data. In parallel data, different parts of two sentences with the same content can be distinguished by clear style tokens, but it requires much cost to build. Although it is possible to reduce the data required for learning by prompting, there is a problem that the content of the style token cannot be maintained. In this paper, we construct 2,000 parallel article-broadcast data, and newly propose Content Marker Prompting that maintains the content of style tokens. The high performance of EM 0.9778 was achieved on the article-broadcast dataset. KCI Citation Count: 2
AbstractList 뉴스 텍스트-음성 변환 과정에는 기사체-방송체 변환이 요구된다. 기사체-방송체는 content 훼손에 민감하다는 특성을 가지고, 기사체의 괄호와 종결어미를 처리하여 방송체로의 변환이 가능하다. 스타일 토큰 기반 텍스트 스타일 변환 모델은 문장의 일부분만 변형하기 때문에, content 훼손을 최소화할 수 있어 기사체-방송체 변환에 적합하다. 그러나 기존 연구에서는 비병렬 데이터를 사용하여 스타일 토큰 학습이 어렵다는 단점이 있다. 병렬 데이터는 같은 content를 가진 두 문장에서 다른 부분을 명확한 스타일 토큰으로 구분 가능하지만, 구축에 비교적 많은 비용이 요구된다. 프롬프팅을 적용하여 학습에 요구되는 데이터를 줄일 수 있으나, 기존 방식으로는 스타일 토큰의 content 유지가 불가하다는 문제가 발생한다. 본 논문에서는 기사체-방송체 병렬 데이터 2,000건을 구축하였으며, 스타일 토큰의 content를 유지시키는 콘텐트 마커 프롬프팅을 새롭게 제안하였다. 또한 기사체-방송체 데이터셋에서 EM 0.9978의 높은 성능을 달성하였다. The news text-to-voice conversion process requires article-broadcast style transfer. The article-broadcast style has the characteristic of being sensitive to content corruption, and can be converted into a broadcast style by processing the parentheses and final suffixes of the article style. Since the style token-based text style transfer model modifies only a portion of the sentence, it is suitable for article-broadcast transfer as it can minimize content corruption. However, there is a disadvantage that learning style tokens are difficult in studies using non-parallel data. In parallel data, different parts of two sentences with the same content can be distinguished by clear style tokens, but it requires much cost to build. Although it is possible to reduce the data required for learning by prompting, there is a problem that the content of the style token cannot be maintained. In this paper, we construct 2,000 parallel article-broadcast data, and newly propose Content Marker Prompting that maintains the content of style tokens. The high performance of EM 0.9778 was achieved on the article-broadcast dataset. KCI Citation Count: 2
Author 김경민(Kyung Min Kim)
임상훈(Sang Hun Im)
오흥선(Heung-Seon Oh)
김기백(Gi Baeg Kim)
Author_xml – sequence: 1
  fullname: 김경민(Kyung Min Kim)
– sequence: 2
  fullname: 임상훈(Sang Hun Im)
– sequence: 3
  fullname: 김기백(Gi Baeg Kim)
– sequence: 4
  fullname: 오흥선(Heung-Seon Oh)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002932964$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNotjD9LAzEcQINUsNZ-ALdbXIQ7k1-SJhlLrVooFqSDW0gvFzmqV7nDwa0oOhSc1cFBcBE6FP9ABz9Re_cdbLXTe8PjbaJSMkgihLYJDpQAuWfDLAAMNAAWQAA1sYbKAFL4gsrTEioTrqQPGKsNVM2yuIc5pUIAQBnx2XSS34zzjy9_PnnP718X5hV3D_norRhNvSVuh_nLjzf_HBbPT17-OJl9j7fQujPnWVRdsYK6B81u48hvdw5bjXrbT2pc-dYZxq0xhkgIraBOSkd7LHKWGEyBhCzCPaOoII4rqyjDgkvFLVGhwsCAVtDu_zZJne6HsR6Y-I9nA91Pdf2k29IEE8kkXsY7q_gqjS8iGxt9uRCTXuvjzn6TEABcE4r-AnZTaAA
ContentType Journal Article
DBID DBRKI
TDB
ACYCR
DOI 10.9728/dcs.2023.24.2.267
DatabaseName DBPIA - 디비피아
Nurimedia DBPIA Journals
Korean Citation Index
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
DocumentTitleAlternate Text Style Transfer Study for Article-Broadcast Style
DocumentTitle_FL Text Style Transfer Study for Article-Broadcast Style
EISSN 2287-738X
EndPage 272
ExternalDocumentID oai_kci_go_kr_ARTI_10184802
NODE11220679
GroupedDBID ALMA_UNASSIGNED_HOLDINGS
DBRKI
M~E
TDB
ACYCR
ID FETCH-LOGICAL-n659-dfa45daaa182cd73f88f3b4efd1a0321c4e0ba9371f59d934075895d19c902423
ISSN 1598-2009
IngestDate Wed Apr 23 03:13:04 EDT 2025
Thu Feb 06 13:13:41 EST 2025
IsPeerReviewed true
IsScholarly true
Issue 2
Keywords 자연어처리
Artificial Intelligence
Dataset
데이터셋
Natural Language Processing
딥러닝
인공지능
Text Style Transfer
텍스트 스타일 변환
Deep Learning
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-n659-dfa45daaa182cd73f88f3b4efd1a0321c4e0ba9371f59d934075895d19c902423
PageCount 6
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_10184802
nurimedia_primary_NODE11220679
PublicationCentury 2000
PublicationDate 2023-02
PublicationDateYYYYMMDD 2023-02-01
PublicationDate_xml – month: 02
  year: 2023
  text: 2023-02
PublicationDecade 2020
PublicationTitle 디지털콘텐츠학회논문지
PublicationYear 2023
Publisher 한국디지털콘텐츠학회
Publisher_xml – name: 한국디지털콘텐츠학회
SSID ssib053377222
ssib008451574
ssib049971524
ssib036278589
ssib053682487
Score 2.2243972
Snippet 뉴스 텍스트-음성 변환 과정에는 기사체-방송체 변환이 요구된다. 기사체-방송체는 content 훼손에 민감하다는 특성을 가지고, 기사체의 괄호와 종결어미를 처리하여...
SourceID nrf
nurimedia
SourceType Open Website
Publisher
StartPage 267
SubjectTerms 컴퓨터학
Title 기사체-방송체 텍스트 스타일 변환 연구
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11220679
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART002932964
Volume 24
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 디지털콘텐츠학회논문지, 2023, 24(2), , pp.267-272
journalDatabaseRights – providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources
  customDbUrl:
  eissn: 2287-738X
  dateEnd: 99991231
  omitProxy: true
  ssIdentifier: ssib053682487
  issn: 1598-2009
  databaseCode: M~E
  dateStart: 20000101
  isFulltext: true
  titleUrlDefault: https://road.issn.org
  providerName: ISSN International Centre
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrR1NaxNBdKn1oBdRVKwfZUHnFDZmZ2d2Z477VapgvUToLeynaCApIbl4kKLooeC5evAgeBF6CH5AD_6idvMffG92s9nUIlWEsBnezLx5Hzsz7y0z72naPR7nGSyO3IgcyzFYbFIjShPTiB2WyyxnZpqoaJ9b9uYT9nCbb6-c22-cWpqM43by4tR7Jf-iVYCBXvGW7F9otkYKACiDfuEJGobnmXRMQpd4gngdEvpEUOL6WPAo8ZhBQg8rXKnqbOKadV2LhAERnIhA1bnEZQqCyFrLIAtPQgBEBsTzWwpnCQqIlESWzaWjSIDunFShHJ_PCfSIZPiDZq5T9RQMqUZqAIuoiJFqHIC7JXaOA2DBJcJHPNDGUwXXr7qXCOEdoQzsZNr4qKGIkWo4V_EcqI4bxPMXTYDwEGlBhoEpU40G44jTsZRyVkL1zCUsopIWEFyJlAEXze8p1Jofwa5mwJxFfy624H-JqrnLSPUil1LJFIyC62o4lsqzXO8mZaaSyjChZY6jk3uedCje40gTDD5PrTZlbdquezbji5_Y95cijPeTZ72nw15_1AM_6gEe_BNMYJDW89SxbUwN8uhlWC_UgoEZvPAbwAhyBF-kLQAv2gG7sK4HlwKcuEWcSG7ZgjKVvLIWRXniAJm5_xsrYPcNRmAuXhhMMOcFLJwNG7B7WbtUOW-6W87EK9pKf3hV40eH0-LVQfH1u3E8_VK8_QQlffbmXbH3ebZ3qOPf693i40_9-Nvu7MN7vdifHv04uKZ1N8Kuv2lUyUiMgc2lkeYR42kUReCPJ6lj5ULkVsyyPDWjjkXNhGWdOMLgkjmXqbQYmOJC8tSUiUQz2LqurQ6Gg-yGpkeWHQubxSJybBZJJgEplTn6LlFm5vmadhe4VRr5g2bWtPVaGr2dMjJNb-txEIIDhSkZ5M0zobmlXVxMgtva6ng0ye6AmT2O15XKfwFX7Jx0
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EA%B8%B0%EC%82%AC%EC%B2%B4-%EB%B0%A9%EC%86%A1%EC%B2%B4+%ED%85%8D%EC%8A%A4%ED%8A%B8+%EC%8A%A4%ED%83%80%EC%9D%BC+%EB%B3%80%ED%99%98+%EC%97%B0%EA%B5%AC&rft.jtitle=%EB%94%94%EC%A7%80%ED%84%B8%EC%BD%98%ED%85%90%EC%B8%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80%2C+24%282%29&rft.au=%EA%B9%80%EA%B2%BD%EB%AF%BC&rft.au=%EC%9E%84%EC%83%81%ED%9B%88&rft.au=%EA%B9%80%EA%B8%B0%EB%B0%B1&rft.au=%EC%98%A4%ED%99%8D%EC%84%A0&rft.date=2023-02-01&rft.pub=%ED%95%9C%EA%B5%AD%EB%94%94%EC%A7%80%ED%84%B8%EC%BD%98%ED%85%90%EC%B8%A0%ED%95%99%ED%9A%8C&rft.issn=1598-2009&rft.eissn=2287-738X&rft.spage=267&rft.epage=272&rft_id=info:doi/10.9728%2Fdcs.2023.24.2.267&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_10184802
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1598-2009&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1598-2009&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1598-2009&client=summon