基于多任务学习的语音情感识别

TP183; 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感.然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低.鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率.为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征.为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感.在公开数据...

Full description

Saved in:

Bibliographic Details
Published in	数据采集与处理 Vol. 39; no. 2; pp. 424 - 432
Main Authors	李云峰, 闫祖龙, 高天, 方昕, 邹亮
Format	Journal Article
Language	Chinese
Published	中国矿业大学信息与控制工程学院,徐州 221116%科大讯飞股份有限公司核心研发平台,合肥 230088 01.03.2024
Subjects	deep learning multi-task learning speech emotion recognition self-supervised model 语音情感识别深度学习多任务学习 fine-tuning strategy 自监督模型微调策略
Online Access	Get full text
ISSN	1004-9037
DOI	10.16337/j.1004-9037.2024.02.015

Cover

More Information
Summary:	TP183; 在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感.然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低.鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率.为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征.为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感.在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升.同时,消融实验验证了辅助任务和自监督网络微调策略的有效性.
ISSN:	1004-9037
DOI:	10.16337/j.1004-9037.2024.02.015