Thesaurus와 TTA를 이용한 Stable Diffusion 사용자 프롬프트의 의미론적 확장 및 생성 방법
Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는 것에만 중점을 두고 있어, 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트를 작성하는 데 어려움을 느끼는 문제가 있다. 본 연구에서는 생성 모델의 최종 출력과 사용자의 의도 사이의 간극을 줄여 모델의 사용성을 높이는 새로운 방법론을 제안한다. Thesaurus 기반 TTA(Test Time Augmentation) 기법을 도입하여 사용자의 프롬프트를...
Saved in:
| Published in | 정보과학회 컴퓨팅의 실제 논문지 Vol. 30; no. 10; pp. 513 - 518 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Korean |
| Published |
Korean Institute of Information Scientists and Engineers
01.10.2024
한국정보과학회 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 2383-6318 2383-6326 |
| DOI | 10.5626/KTCP.2024.30.10.513 |
Cover
| Abstract | Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는 것에만 중점을 두고 있어, 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트를 작성하는 데 어려움을 느끼는 문제가 있다. 본 연구에서는 생성 모델의 최종 출력과 사용자의 의도 사이의 간극을 줄여 모델의 사용성을 높이는 새로운 방법론을 제안한다. Thesaurus 기반 TTA(Test Time Augmentation) 기법을 도입하여 사용자의 프롬프트를 의미론적으로 연관된 다양한 augmented prompt로 확장한 뒤, 사용자의 피드백을 반영한다. 본 연구의 방법을 통해 사용자의 프롬프트로 생성한 이미지와는 다른 다양한 이미지를 생성하는 것을 정성 평가를 통해 확인하였으며, 증강된 프롬프트가 사용자의 프롬프트와 의미론적으로 연관되어 있다는 것을 BERT Score를 이용한 정량 평가를 통해 확인하였다. In text-to-image generation models, the user prompt plays a crucial role in determining the quality of the resulting image. However, current research on image generation models primarily focuses on the actual creation of images, leaving users struggling to come up with prompts that use appropriate vocabulary to achieve their desired outcomes. This paper presents a new methodology that aims to enhance the usability of generative models by bridging the gap between the model's final output and the user's intention. To accomplish this, we introduce a Thesaurus-based Test Time Augmentation(TTA) technique, which allows us to semantically expand user prompts into a variety of related augmented prompts. We then incorporate user feedback into the process. We validated the effectiveness of our approach through qualitative evaluations, observing the generation of diverse images from a single user prompt. Furthermore, we confirmed the semantic relevance of our augmented prompts to the user's original prompt using a quantitative evaluation with BERT Scores. KCI Citation Count: 0 |
|---|---|
| AbstractList | Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는 것에만 중점을 두고 있어, 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트를 작성하는 데 어려움을 느끼는 문제가 있다. 본 연구에서는 생성 모델의 최종 출력과 사용자의 의도 사이의 간극을 줄여 모델의 사용성을 높이는 새로운 방법론을 제안한다. Thesaurus 기반 TTA(Test Time Augmentation) 기법을 도입하여 사용자의 프롬프트를 의미론적으로 연관된 다양한 augmented prompt로 확장한 뒤, 사용자의 피드백을 반영한다. 본 연구의 방법을 통해 사용자의 프롬프트로 생성한 이미지와는 다른 다양한 이미지를 생성하는 것을 정성 평가를 통해 확인하였으며, 증강된 프롬프트가 사용자의 프롬프트와 의미론적으로 연관되어 있다는 것을 BERT Score를 이용한 정량 평가를 통해 확인하였다. In text-to-image generation models, the user prompt plays a crucial role in determining the quality of the resulting image. However, current research on image generation models primarily focuses on the actual creation of images, leaving users struggling to come up with prompts that use appropriate vocabulary to achieve their desired outcomes. This paper presents a new methodology that aims to enhance the usability of generative models by bridging the gap between the model's final output and the user's intention. To accomplish this, we introduce a Thesaurus-based Test Time Augmentation(TTA) technique, which allows us to semantically expand user prompts into a variety of related augmented prompts. We then incorporate user feedback into the process. We validated the effectiveness of our approach through qualitative evaluations, observing the generation of diverse images from a single user prompt. Furthermore, we confirmed the semantic relevance of our augmented prompts to the user's original prompt using a quantitative evaluation with BERT Scores. KCI Citation Count: 0 |
| Author | 이정(Jung Lee) 최영(Young Choi) 낭종호(Jongho Nang) 송진하(Jinha Song) |
| Author_xml | – sequence: 1 fullname: 이정(Jung Lee) – sequence: 2 fullname: 최영(Young Choi) – sequence: 3 fullname: 송진하(Jinha Song) – sequence: 4 fullname: 낭종호(Jongho Nang) |
| BackLink | https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003128519$$DAccess content in National Research Foundation of Korea (NRF) |
| BookMark | eNo9jDtPwlAYhk8MJiLyC1zO4mICnkt72jMSQCUSMdq9Ob1pAxbTyuDmhclFB0nACIGBgYTESxwY_Ec9_Q9WJS7f--S9fOsgE7QDF4BNjIoqI2znwCgfFQkiSpGi4o-J6QrIEqrTAqOEZf4Z62sgH0W-hQjWiaJznAWBceZGohN2Ijm4hoZRiqdfUA4_5fMs6b3Ak0thtVxY8T2vE_ntAMrbeRrJ0SNMnrrxZJ7e5H4hh_101I9fF_FkLMc3MBn05GgK47cHKO-Gsvue4iz-6G2AVU-0Ije_1BwwdqtGeb9Qb-zVyqV6IWCqVnAt1XM0h1CVUcuyEWZE6I6tODZCXGi2omBCNJ17gig2ZQ5HxEY2tiyLeVzBLs2B7b-3QeiZTds328L_1dO22QzN0rFRMzFilHGO0vLWstwJ_XPX8YV5kYIIr8zDRqWKMVcoVzX6DeQhhMU |
| ContentType | Journal Article |
| DBID | DBRKI TDB ACYCR |
| DOI | 10.5626/KTCP.2024.30.10.513 |
| DatabaseName | DBPIA - 디비피아 누리미디어 DBpia Korean Citation Index |
| DatabaseTitleList | |
| DeliveryMethod | fulltext_linktorsrc |
| DocumentTitleAlternate | Semantic Extension and Generation of User Prompts for Stable Diffusion Using Thesaurus and TTA |
| DocumentTitle_FL | Semantic Extension and Generation of User Prompts for Stable Diffusion Using Thesaurus and TTA |
| EISSN | 2383-6326 |
| EndPage | 518 |
| ExternalDocumentID | oai_kci_go_kr_ARTI_10636990 NODE11943957 |
| GroupedDBID | .UV ALMA_UNASSIGNED_HOLDINGS DBRKI TDB ACYCR |
| ID | FETCH-LOGICAL-n657-eb5fd7d23563bbc0162a8dc4dc009a7c44122789fa24c36d902c0c1bbb6f941e3 |
| ISSN | 2383-6318 |
| IngestDate | Sun Sep 21 03:10:28 EDT 2025 Thu Feb 06 13:29:02 EST 2025 |
| IsPeerReviewed | false |
| IsScholarly | false |
| Issue | 10 |
| Keywords | prompt engineering test time augmentation deep learning 프롬프트 엔지니어링 multi modal 스테이블 디퓨전 딥러닝 테스트 시간 증강 generative model 생성모델 Stable Diffusion 멀티모달 |
| Language | Korean |
| LinkModel | OpenURL |
| MergedId | FETCHMERGED-LOGICAL-n657-eb5fd7d23563bbc0162a8dc4dc009a7c44122789fa24c36d902c0c1bbb6f941e3 |
| PageCount | 6 |
| ParticipantIDs | nrf_kci_oai_kci_go_kr_ARTI_10636990 nurimedia_primary_NODE11943957 |
| PublicationCentury | 2000 |
| PublicationDate | 2024-10 |
| PublicationDateYYYYMMDD | 2024-10-01 |
| PublicationDate_xml | – month: 10 year: 2024 text: 2024-10 |
| PublicationDecade | 2020 |
| PublicationTitle | 정보과학회 컴퓨팅의 실제 논문지 |
| PublicationYear | 2024 |
| Publisher | Korean Institute of Information Scientists and Engineers 한국정보과학회 |
| Publisher_xml | – name: Korean Institute of Information Scientists and Engineers – name: 한국정보과학회 |
| SSID | ssib021824891 ssib044742771 ssib053377435 ssib019653237 |
| Score | 1.897544 |
| Snippet | Text-to-image 생성 모델에서 사용자 프롬프트는 결과물인 이미지의 품질을 결정하는 핵심 요소이다. 하지만 이미지 생성 모델의 현행 연구들은 대부분 이미지를 생성하는... |
| SourceID | nrf nurimedia |
| SourceType | Open Website Publisher |
| StartPage | 513 |
| SubjectTerms | 컴퓨터학 |
| Title | Thesaurus와 TTA를 이용한 Stable Diffusion 사용자 프롬프트의 의미론적 확장 및 생성 방법 |
| URI | https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11943957 https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003128519 |
| Volume | 30 |
| hasFullText | 1 |
| inHoldings | 1 |
| isFullTextHit | |
| isPrint | |
| ispartofPNX | 정보과학회 컴퓨팅의 실제 논문지, 2024, 30(10), , pp.513-518 |
| journalDatabaseRights | – providerCode: PRVHPJ databaseName: ROAD: Directory of Open Access Scholarly Resources customDbUrl: eissn: 2383-6326 dateEnd: 99991231 omitProxy: true ssIdentifier: ssib044742771 issn: 2383-6318 databaseCode: M~E dateStart: 20140101 isFulltext: true titleUrlDefault: https://road.issn.org providerName: ISSN International Centre |
| link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnR09b9QwNGrLAAsCAaJ8VJHA0ylH4tiJMya5VAXUwnBI3U6Jk6DqpCu69hYGxEcnFhio1CJatUOHSpX4EEMH_tHlNn4Az3Yul1YVKizRk9_zy_uI4_cs-1nT7jOeeNzKHCPD3DEITnMjyQg2EogWcOzFbiZr6S0uOQvPyKNlujw1_bu2a2mwnjT5yzPPlfyPV6EN_CpOyf6DZyum0AAw-Bee4GF4ntfHa_GgP1hDUYg8DzGz0W77KAqQT1EQNmRzCwVEAj7yPRS1kEeRJ7Z3yUNTrZU8H6zJbwBoGEZ-WCMGIEKe2ZDdIOokkrcliaqWFmI-Clj5Mo81KkhSz0uc6mYKFDyZpVh6Qhj1Fp82BFUAyHkliy2YCICgwBojhVQAYKQuzRzH1SVfwQ2wtlTZl0A4Vlnp7iOm7BIEkgiabOQzqQW8ip7UgoHYZMw7lDIwKnkGwgZKad8V20XgU7VNUfXKrC2unHCAlK-OCYQjJAlDzKpjmCPMVfImYw3YhCSQrpLm8bEUW9o7YPVVHEyq_YBq3FXel8ahYwbntdtk0oAIzDYcu5zTsnobrk9UVJ0ALmMequhPT6cQG4uVncft8GlTCN20xWpPs-pbL15-Kqg4Ub68y1c6z1c73X4HkrSHHQvCYgeioGntAoa5WFy4svgqGs8CosSlXaugJK4YIGxS0YkQl2B3ksRAvgIpjLxJt1JelRcT4j84Q3gII3t9iD4v9gbiCg34D9dCyvYV7XKZC-q-GthXtanu6jWtVw3qYvu1DsN5ePBLL3Z-Fp8PR5tfdDVs9WrY6sXbI0AVux_10aeN4f4RPEfvj4udLei0Nfx6PNzfK_be6KPtzWL3QB9--6AX73aKje8AHg5_bF7X2vNRO1wwyktRjJ5DXSNLaJ66KbapYycJh4QNxyzlJOWQLMUuh-xGHm7PY0y47aSeibnJrSRJnNwjVmbf0GZ6q73spqYnmZVhmjJCLU4wJ3EidoQnjmen3MlNPqvdAzNJ5_3FibPaXGXGzgtVIaez9KQVWZZHxCaAW-dic1u7NBkWd7SZ9f4guwvh_noyJ7-OP2_Lzu4 |
| linkProvider | ISSN International Centre |
| openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=Thesaurus%EC%99%80+TTA%EB%A5%BC+%EC%9D%B4%EC%9A%A9%ED%95%9C+Stable+Diffusion+%EC%82%AC%EC%9A%A9%EC%9E%90+%ED%94%84%EB%A1%AC%ED%94%84%ED%8A%B8%EC%9D%98+%EC%9D%98%EB%AF%B8%EB%A1%A0%EC%A0%81+%ED%99%95%EC%9E%A5+%EB%B0%8F+%EC%83%9D%EC%84%B1+%EB%B0%A9%EB%B2%95&rft.jtitle=%EC%A0%95%EB%B3%B4%EA%B3%BC%ED%95%99%ED%9A%8C+%EC%BB%B4%ED%93%A8%ED%8C%85%EC%9D%98+%EC%8B%A4%EC%A0%9C+%EB%85%BC%EB%AC%B8%EC%A7%80%2C+30%2810%29&rft.au=%EC%9D%B4%EC%A0%95&rft.au=%EC%B5%9C%EC%98%81&rft.au=%EC%86%A1%EC%A7%84%ED%95%98&rft.au=%EB%82%AD%EC%A2%85%ED%98%B8&rft.date=2024-10-01&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%EA%B3%BC%ED%95%99%ED%9A%8C&rft.issn=2383-6318&rft.eissn=2383-6326&rft.spage=513&rft.epage=518&rft_id=info:doi/10.5626%2FKTCP.2024.30.10.513&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_10636990 |
| thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2383-6318&client=summon |
| thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2383-6318&client=summon |
| thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2383-6318&client=summon |