丢弃冗余块的语音识别Transformer解码加速方法

TP81; Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制.为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB.以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度.采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销.引入Intermediate CTC结构提高模...

Full description

Saved in:

Bibliographic Details
Published in	计算机工程 Vol. 49; no. 10; pp. 105 - 119
Main Authors	赵德春, 舒洋, 李玲, 陈欢, 张子豪
Format	Journal Article
Language	Chinese
Published	重庆邮电大学生物信息学院,重庆 400065%重庆邮电大学自动化学院,重庆 400065 2023
Subjects	Transformer decoder speech recognition 解码加速 Transformer解码器 CTC model decoding acceleration CTC模型特征压缩语音识别 feature compression
Online Access	Get full text
ISSN	1000-3428
DOI	10.19678/j.issn.1000-3428.0065685

Cover

More Information
Summary:	TP81; Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制.为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB.以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度.采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销.引入Intermediate CTC结构提高模型训练时对编码器的约束能力,减小DRB判断冗余帧的误差,降低DRB方法对模型识别精度造成的损失.在开源数据集AISHELL-1与LibriSpeech上进行实验,结果表明,使用DRB的两阶段重打分非自回归解码方法在2个数据集上均能对解码速度取得58%左右的加速效果,且识别精度几乎没有损失,实现了解码效率的显著提升.
ISSN:	1000-3428
DOI:	10.19678/j.issn.1000-3428.0065685