基于交替训练及预训练的低资源泰语语音合成
TP391; 泰语作为一种有数千万人口使用的语言,应用较为广泛,20世纪90年代末就有学者开展了泰语语音合成的研究.近年来,基于深度神经网络并利用大规模高质量"文本-音频"数据训练的端到端语音合成系统,已经能够合成出高质量的语音.目前,汉语、英语等通用语已拥有海量的语音合成数据库,然而泰语作为一种非通用语可获取的"文本-音频"数据库规模往往较小.在低资源条件下,以提高泰语语音合成质量为目标,选用端到端语音合成模型Tacotron2作为基线模型,研究交替训练方法以及预训练方法,研究不同文本嵌入方式对泰语语音合成效果的影响;然后从注意力对齐图和MOS评分两方...
Saved in:
Published in | 计算机科学 Vol. 50; no. z1; pp. 416 - 420 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Chinese |
Published |
云南大学信息学院 昆明650504%科大讯飞股份有限公司人工智能研究院 合肥230088
2023
|
Subjects | |
Online Access | Get full text |
ISSN | 1002-137X |
DOI | 10.11896/jsjkx.220800127 |
Cover
Summary: | TP391; 泰语作为一种有数千万人口使用的语言,应用较为广泛,20世纪90年代末就有学者开展了泰语语音合成的研究.近年来,基于深度神经网络并利用大规模高质量"文本-音频"数据训练的端到端语音合成系统,已经能够合成出高质量的语音.目前,汉语、英语等通用语已拥有海量的语音合成数据库,然而泰语作为一种非通用语可获取的"文本-音频"数据库规模往往较小.在低资源条件下,以提高泰语语音合成质量为目标,选用端到端语音合成模型Tacotron2作为基线模型,研究交替训练方法以及预训练方法,研究不同文本嵌入方式对泰语语音合成效果的影响;然后从注意力对齐图和MOS评分两方面对文中设计的6种模型所合成的语音进行测评.实验结果表明,采用"元辅音嵌入+预训练+交替训练"方法的系统的语音合成质量最好,合成语音的MOS评分可达3.95分,明显优于基线系统的1.71分. |
---|---|
ISSN: | 1002-137X |
DOI: | 10.11896/jsjkx.220800127 |