基于多任务学习的语音情感识别

TP183; 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感.然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低.鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率.为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征.为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感.在公开数据...

Full description

Saved in:
Bibliographic Details
Published in数据采集与处理 Vol. 39; no. 2; pp. 424 - 432
Main Authors 李云峰, 闫祖龙, 高天, 方昕, 邹亮
Format Journal Article
LanguageChinese
Published 中国矿业大学信息与控制工程学院,徐州 221116%科大讯飞股份有限公司核心研发平台,合肥 230088 01.03.2024
Subjects
Online AccessGet full text
ISSN1004-9037
DOI10.16337/j.1004-9037.2024.02.015

Cover

More Information
Summary:TP183; 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感.然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低.鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率.为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征.为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感.在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升.同时,消融实验验证了辅助任务和自监督网络微调策略的有效性.
ISSN:1004-9037
DOI:10.16337/j.1004-9037.2024.02.015