저음질 한국어 전화 상담에서의 상용 자동 음성 인식 API 성능 비교 연구

최근 딥러닝 기술과 클라우드 컴퓨팅 발전으로 클라우드 기반 상용 음성 인식 API가 등장하여 비전문가들도 여러 응용 업무에 빠르게 적용할 수 있게 되었다. 하지만, 상용 음성 인식 API를 사용하여 서비스를 개발하기 위해서는 어떤 API를 사용해야 할지 어려움이 존재한다. 따라서, 본 연구에서는 저음질 전화망 환경에서 수집한 음성 발화 데이터를 기반으로 5가지의 상용 음성 인식 API를 비교한다. 이를 위해 두 가지의 데이터셋(ITCD V1, 저음질 전화망 음성 인식 데이터셋)에 대하여 두 가지의 성능 평가 지표(WER, CER)를...

Full description

Saved in:
Bibliographic Details
Published in한국정보통신학회논문지 Vol. 28; no. 2; pp. 223 - 229
Main Authors 이태우(Taewoo Lee), 김태용(Taeyong Kim), 한혜원(Hyewon Han), 김도연(Doyeon Kim), 강지호(Jiho Kang)
Format Journal Article
LanguageKorean
Published 한국정보통신학회 01.02.2024
Subjects
Online AccessGet full text
ISSN2234-4772
2288-4165
DOI10.6109/jkiice.2024.28.2.223

Cover

More Information
Summary:최근 딥러닝 기술과 클라우드 컴퓨팅 발전으로 클라우드 기반 상용 음성 인식 API가 등장하여 비전문가들도 여러 응용 업무에 빠르게 적용할 수 있게 되었다. 하지만, 상용 음성 인식 API를 사용하여 서비스를 개발하기 위해서는 어떤 API를 사용해야 할지 어려움이 존재한다. 따라서, 본 연구에서는 저음질 전화망 환경에서 수집한 음성 발화 데이터를 기반으로 5가지의 상용 음성 인식 API를 비교한다. 이를 위해 두 가지의 데이터셋(ITCD V1, 저음질 전화망 음성 인식 데이터셋)에 대하여 두 가지의 성능 평가 지표(WER, CER)를 사용하여 시험 테스트를 진행하였으며, Naver Clova, OpenAI Whisper, ReturnZero RTZR API를 사용하는 것이 바람직하다는 결론을 얻었다. In the era of advanced deep learning and cloud computing, commercial speech recognition APIs have become accessible for seamless integration into diverse applications by non-experts. There is also a growing demand from non-technical people and businesses to develop their own services using speech recognition API. The challenge for them, however, is to choose the best API for developing their services. This study compares five commercial speech recognition APIs in low-quality telephone network settings using two datasets (ITCD V1 and Low-quality Telephone Network Speech Recognition Dataset) and common speech recognition benchmarking metrics (WER and CER). The findings favor Naver Clova, OpenAI Whisper, and ReturnZero RTZR API, showcasing their desirability for accurate performance in challenging environments. This research contributes valuable insights for developers navigating the landscape of speech recognition APIs, particularly in scenarios with suboptimal or low-quality telephone network audio quality. KCI Citation Count: 0
Bibliography:http://jkiice.org
ISSN:2234-4772
2288-4165
DOI:10.6109/jkiice.2024.28.2.223