Thesaurus와 TTA를 이용한 Stable Diffusion 사용자 프롬프트의 의미론적 확장 및 생성 방법

Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는 것에만 중점을 두고 있어, 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트를 작성하는 데 어려움을 느끼는 문제가 있다. 본 연구에서는 생성 모델의 최종 출력과 사용자의 의도 사이의 간극을 줄여 모델의 사용성을 높이는 새로운 방법론을 제안한다. Thesaurus 기반 TTA(Test Time Augmentation) 기법을 도입하여 사용자의 프롬프트를...

Full description

Saved in:
Bibliographic Details
Published in정보과학회 컴퓨팅의 실제 논문지 Vol. 30; no. 10; pp. 513 - 518
Main Authors 이정(Jung Lee), 최영(Young Choi), 송진하(Jinha Song), 낭종호(Jongho Nang)
Format Journal Article
LanguageKorean
Published Korean Institute of Information Scientists and Engineers 01.10.2024
한국정보과학회
Subjects
Online AccessGet full text
ISSN2383-6318
2383-6326
DOI10.5626/KTCP.2024.30.10.513

Cover

Abstract Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는 것에만 중점을 두고 있어, 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트를 작성하는 데 어려움을 느끼는 문제가 있다. 본 연구에서는 생성 모델의 최종 출력과 사용자의 의도 사이의 간극을 줄여 모델의 사용성을 높이는 새로운 방법론을 제안한다. Thesaurus 기반 TTA(Test Time Augmentation) 기법을 도입하여 사용자의 프롬프트를 의미론적으로 연관된 다양한 augmented prompt로 확장한 뒤, 사용자의 피드백을 반영한다. 본 연구의 방법을 통해 사용자의 프롬프트로 생성한 이미지와는 다른 다양한 이미지를 생성하는 것을 정성 평가를 통해 확인하였으며, 증강된 프롬프트가 사용자의 프롬프트와 의미론적으로 연관되어 있다는 것을 BERT Score를 이용한 정량 평가를 통해 확인하였다. In text-to-image generation models, the user prompt plays a crucial role in determining the quality of the resulting image. However, current research on image generation models primarily focuses on the actual creation of images, leaving users struggling to come up with prompts that use appropriate vocabulary to achieve their desired outcomes. This paper presents a new methodology that aims to enhance the usability of generative models by bridging the gap between the model's final output and the user's intention. To accomplish this, we introduce a Thesaurus-based Test Time Augmentation(TTA) technique, which allows us to semantically expand user prompts into a variety of related augmented prompts. We then incorporate user feedback into the process. We validated the effectiveness of our approach through qualitative evaluations, observing the generation of diverse images from a single user prompt. Furthermore, we confirmed the semantic relevance of our augmented prompts to the user's original prompt using a quantitative evaluation with BERT Scores. KCI Citation Count: 0
AbstractList Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는 것에만 중점을 두고 있어, 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트를 작성하는 데 어려움을 느끼는 문제가 있다. 본 연구에서는 생성 모델의 최종 출력과 사용자의 의도 사이의 간극을 줄여 모델의 사용성을 높이는 새로운 방법론을 제안한다. Thesaurus 기반 TTA(Test Time Augmentation) 기법을 도입하여 사용자의 프롬프트를 의미론적으로 연관된 다양한 augmented prompt로 확장한 뒤, 사용자의 피드백을 반영한다. 본 연구의 방법을 통해 사용자의 프롬프트로 생성한 이미지와는 다른 다양한 이미지를 생성하는 것을 정성 평가를 통해 확인하였으며, 증강된 프롬프트가 사용자의 프롬프트와 의미론적으로 연관되어 있다는 것을 BERT Score를 이용한 정량 평가를 통해 확인하였다. In text-to-image generation models, the user prompt plays a crucial role in determining the quality of the resulting image. However, current research on image generation models primarily focuses on the actual creation of images, leaving users struggling to come up with prompts that use appropriate vocabulary to achieve their desired outcomes. This paper presents a new methodology that aims to enhance the usability of generative models by bridging the gap between the model's final output and the user's intention. To accomplish this, we introduce a Thesaurus-based Test Time Augmentation(TTA) technique, which allows us to semantically expand user prompts into a variety of related augmented prompts. We then incorporate user feedback into the process. We validated the effectiveness of our approach through qualitative evaluations, observing the generation of diverse images from a single user prompt. Furthermore, we confirmed the semantic relevance of our augmented prompts to the user's original prompt using a quantitative evaluation with BERT Scores. KCI Citation Count: 0
Author 이정(Jung Lee)
최영(Young Choi)
낭종호(Jongho Nang)
송진하(Jinha Song)
Author_xml – sequence: 1
  fullname: 이정(Jung Lee)
– sequence: 2
  fullname: 최영(Young Choi)
– sequence: 3
  fullname: 송진하(Jinha Song)
– sequence: 4
  fullname: 낭종호(Jongho Nang)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003128519$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNo9jDtPwlAYhk8MJiLyC1zO4mICnkt72jMSQCUSMdq9Ob1pAxbTyuDmhclFB0nACIGBgYTESxwY_Ec9_Q9WJS7f--S9fOsgE7QDF4BNjIoqI2znwCgfFQkiSpGi4o-J6QrIEqrTAqOEZf4Z62sgH0W-hQjWiaJznAWBceZGohN2Ijm4hoZRiqdfUA4_5fMs6b3Ak0thtVxY8T2vE_ntAMrbeRrJ0SNMnrrxZJ7e5H4hh_101I9fF_FkLMc3MBn05GgK47cHKO-Gsvue4iz-6G2AVU-0Ije_1BwwdqtGeb9Qb-zVyqV6IWCqVnAt1XM0h1CVUcuyEWZE6I6tODZCXGi2omBCNJ17gig2ZQ5HxEY2tiyLeVzBLs2B7b-3QeiZTds328L_1dO22QzN0rFRMzFilHGO0vLWstwJ_XPX8YV5kYIIr8zDRqWKMVcoVzX6DeQhhMU
ContentType Journal Article
DBID DBRKI
TDB
ACYCR
DOI 10.5626/KTCP.2024.30.10.513
DatabaseName DBPIA - 디비피아
누리미디어 DBpia
Korean Citation Index
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
DocumentTitleAlternate Semantic Extension and Generation of User Prompts for Stable Diffusion Using Thesaurus and TTA
DocumentTitle_FL Semantic Extension and Generation of User Prompts for Stable Diffusion Using Thesaurus and TTA
EISSN 2383-6326
EndPage 518
ExternalDocumentID oai_kci_go_kr_ARTI_10636990
NODE11943957
GroupedDBID .UV
ALMA_UNASSIGNED_HOLDINGS
DBRKI
TDB
ACYCR
ID FETCH-LOGICAL-n657-eb5fd7d23563bbc0162a8dc4dc009a7c44122789fa24c36d902c0c1bbb6f941e3
ISSN 2383-6318
IngestDate Sun Sep 21 03:10:28 EDT 2025
Thu Feb 06 13:29:02 EST 2025
IsPeerReviewed false
IsScholarly false
Issue 10
Keywords prompt engineering
test time augmentation
deep learning
프롬프트 엔지니어링
multi modal
스테이블 디퓨전
딥러닝
테스트 시간 증강
generative model
생성모델
Stable Diffusion
멀티모달
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-n657-eb5fd7d23563bbc0162a8dc4dc009a7c44122789fa24c36d902c0c1bbb6f941e3
PageCount 6
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_10636990
nurimedia_primary_NODE11943957
PublicationCentury 2000
PublicationDate 2024-10
PublicationDateYYYYMMDD 2024-10-01
PublicationDate_xml – month: 10
  year: 2024
  text: 2024-10
PublicationDecade 2020
PublicationTitle 정보과학회 컴퓨팅의 실제 논문지
PublicationYear 2024
Publisher Korean Institute of Information Scientists and Engineers
한국정보과학회
Publisher_xml – name: Korean Institute of Information Scientists and Engineers
– name: 한국정보과학회
SSID ssib021824891
ssib044742771
ssib053377435
ssib019653237
Score 1.897544
Snippet Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는...
SourceID nrf
nurimedia
SourceType Open Website
Publisher
StartPage 513
SubjectTerms 컴퓨터학
Title Thesaurus와 TTA를 이용한 Stable Diffusion 사용자 프롬프트의 의미론적 확장 및 생성 방법
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11943957
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003128519
Volume 30
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 정보과학회 컴퓨팅의 실제 논문지, 2024, 30(10), , pp.513-518
journalDatabaseRights – providerCode: PRVHPJ
  databaseName: ROAD: Directory of Open Access Scholarly Resources
  customDbUrl:
  eissn: 2383-6326
  dateEnd: 99991231
  omitProxy: true
  ssIdentifier: ssib044742771
  issn: 2383-6318
  databaseCode: M~E
  dateStart: 20140101
  isFulltext: true
  titleUrlDefault: https://road.issn.org
  providerName: ISSN International Centre
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR09b9QwNGrLAAsCAaJ8VJHA0ylH4tiJMya5VAXUwnBI3U6Jk6DqpCu69hYGxEcnFhio1CJatUOHSpX4EEMH_tHlNn4Az3Yul1YVKizRk9_zy_uI4_cs-1nT7jOeeNzKHCPD3DEITnMjyQg2EogWcOzFbiZr6S0uOQvPyKNlujw1_bu2a2mwnjT5yzPPlfyPV6EN_CpOyf6DZyum0AAw-Bee4GF4ntfHa_GgP1hDUYg8DzGz0W77KAqQT1EQNmRzCwVEAj7yPRS1kEeRJ7Z3yUNTrZU8H6zJbwBoGEZ-WCMGIEKe2ZDdIOokkrcliaqWFmI-Clj5Mo81KkhSz0uc6mYKFDyZpVh6Qhj1Fp82BFUAyHkliy2YCICgwBojhVQAYKQuzRzH1SVfwQ2wtlTZl0A4Vlnp7iOm7BIEkgiabOQzqQW8ip7UgoHYZMw7lDIwKnkGwgZKad8V20XgU7VNUfXKrC2unHCAlK-OCYQjJAlDzKpjmCPMVfImYw3YhCSQrpLm8bEUW9o7YPVVHEyq_YBq3FXel8ahYwbntdtk0oAIzDYcu5zTsnobrk9UVJ0ALmMequhPT6cQG4uVncft8GlTCN20xWpPs-pbL15-Kqg4Ub68y1c6z1c73X4HkrSHHQvCYgeioGntAoa5WFy4svgqGs8CosSlXaugJK4YIGxS0YkQl2B3ksRAvgIpjLxJt1JelRcT4j84Q3gII3t9iD4v9gbiCg34D9dCyvYV7XKZC-q-GthXtanu6jWtVw3qYvu1DsN5ePBLL3Z-Fp8PR5tfdDVs9WrY6sXbI0AVux_10aeN4f4RPEfvj4udLei0Nfx6PNzfK_be6KPtzWL3QB9--6AX73aKje8AHg5_bF7X2vNRO1wwyktRjJ5DXSNLaJ66KbapYycJh4QNxyzlJOWQLMUuh-xGHm7PY0y47aSeibnJrSRJnNwjVmbf0GZ6q73spqYnmZVhmjJCLU4wJ3EidoQnjmen3MlNPqvdAzNJ5_3FibPaXGXGzgtVIaez9KQVWZZHxCaAW-dic1u7NBkWd7SZ9f4guwvh_noyJ7-OP2_Lzu4
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=Thesaurus%EC%99%80+TTA%EB%A5%BC+%EC%9D%B4%EC%9A%A9%ED%95%9C+Stable+Diffusion+%EC%82%AC%EC%9A%A9%EC%9E%90+%ED%94%84%EB%A1%AC%ED%94%84%ED%8A%B8%EC%9D%98+%EC%9D%98%EB%AF%B8%EB%A1%A0%EC%A0%81+%ED%99%95%EC%9E%A5+%EB%B0%8F+%EC%83%9D%EC%84%B1+%EB%B0%A9%EB%B2%95&rft.jtitle=%EC%A0%95%EB%B3%B4%EA%B3%BC%ED%95%99%ED%9A%8C+%EC%BB%B4%ED%93%A8%ED%8C%85%EC%9D%98+%EC%8B%A4%EC%A0%9C+%EB%85%BC%EB%AC%B8%EC%A7%80%2C+30%2810%29&rft.au=%EC%9D%B4%EC%A0%95&rft.au=%EC%B5%9C%EC%98%81&rft.au=%EC%86%A1%EC%A7%84%ED%95%98&rft.au=%EB%82%AD%EC%A2%85%ED%98%B8&rft.date=2024-10-01&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%EA%B3%BC%ED%95%99%ED%9A%8C&rft.issn=2383-6318&rft.eissn=2383-6326&rft.spage=513&rft.epage=518&rft_id=info:doi/10.5626%2FKTCP.2024.30.10.513&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_10636990
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2383-6318&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2383-6318&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2383-6318&client=summon