이미지 내 다중 음원 객체 분석을 통한 스테레오 오디오 생성
최근 인공지능 분야에서 이미지로부터 오디오를 생성하는 Image-to-Audio (I2A) 기술이 주목받고 있다. 그러나 기존의 I2A 기술은 단일 객체에 대응하는 단일 채널 오디오 생성에 중점을 두어 다중 객체가 포함된 이미지에서는 음원의 혼합 문제와 음원 누락 문제가 발생하는 한계를 보인다. 본 연구에서는 이러한 한계를 극복하고자 다중 객체를 포함하는 이미지에서 다중 음원 오디오를 스테레오로 생성하는 새로운 방법을 제시한다. 제안 모델은 YOLOv5를 활용하여 이미지 내 다중 음원 객체를 탐지하고, AudioLDM을 통해 각 객...
Saved in:
| Published in | 디지털콘텐츠학회논문지 Vol. 25; no. 12; pp. 3811 - 3820 |
|---|---|
| Main Authors | , |
| Format | Journal Article |
| Language | Korean |
| Published |
한국디지털콘텐츠학회
01.12.2024
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 1598-2009 2287-738X |
| DOI | 10.9728/dcs.2024.25.12.3811 |
Cover
| Summary: | 최근 인공지능 분야에서 이미지로부터 오디오를 생성하는 Image-to-Audio (I2A) 기술이 주목받고 있다. 그러나 기존의 I2A 기술은 단일 객체에 대응하는 단일 채널 오디오 생성에 중점을 두어 다중 객체가 포함된 이미지에서는 음원의 혼합 문제와 음원 누락 문제가 발생하는 한계를 보인다. 본 연구에서는 이러한 한계를 극복하고자 다중 객체를 포함하는 이미지에서 다중 음원 오디오를 스테레오로 생성하는 새로운 방법을 제시한다. 제안 모델은 YOLOv5를 활용하여 이미지 내 다중 음원 객체를 탐지하고, AudioLDM을 통해 각 객체에 대응하는 단일 음원을 생성한 후, 객체의 크기와 위치 정보를 기반으로 스테레오 오디오로 변환한다. 성능 평가를 위해 다중 객체 이미지-다중 음원 오디오 데이터셋을 새롭게 구축하였으며, 제안 모델은 다중 음원 객체 이미지에 대한 오디오 생성 시 모든 지표에서 베이스라인 모델보다 우수한 성능을 보였다. 이를 통해 기존 I2A 기술의 한계를 극복하고 다중 음원 객체를 포함한 복잡한 시나리오에서도 효과적으로 작동함을 입증하였다. Image-to-audio (I2A) technology has recently gained significant attention in the field of artificial intelligence. However, existing methods primarily focus on single-channel audio generation based on input images consisting of a single object, leading to issues such as blending of sound sources and missing audio elements in images consisting of multiple objecs. To address these limitations, we propose a novel approach for generating multi-source stereo audio from images containing multiple sound-producing objects. We employ YOLO (You Only Look Once) to detect multiple sound-producing objects and AudioLDM to generate distinct audio for each detected object. Subsequently, these individually generated audio sources are converted into stereo audio based on the sizes and positions of the corresponding objects. We evaluated the proposed model on a custom-built dataset comprising multiobject images paired with multisource audio, and it outperformed all baseline models across all metrics. This research overcomes the limitations of current I2A technologies by effectively handling complex, multisource scenarios, thereby advancing the field of audio generation. KCI Citation Count: 0 |
|---|---|
| ISSN: | 1598-2009 2287-738X |
| DOI: | 10.9728/dcs.2024.25.12.3811 |