基于多任务学习的语音情感识别
TP183; 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感.然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低.鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率.为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征.为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感.在公开数据...
Saved in:
Published in | 数据采集与处理 Vol. 39; no. 2; pp. 424 - 432 |
---|---|
Main Authors | , , , , |
Format | Journal Article |
Language | Chinese |
Published |
中国矿业大学信息与控制工程学院,徐州 221116%科大讯飞股份有限公司核心研发平台,合肥 230088
01.03.2024
|
Subjects | |
Online Access | Get full text |
ISSN | 1004-9037 |
DOI | 10.16337/j.1004-9037.2024.02.015 |
Cover
Summary: | TP183; 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感.然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低.鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率.为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征.为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感.在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升.同时,消融实验验证了辅助任务和自监督网络微调策略的有效性. |
---|---|
ISSN: | 1004-9037 |
DOI: | 10.16337/j.1004-9037.2024.02.015 |