丢弃冗余块的语音识别Transformer解码加速方法

TP81; Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制.为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB.以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度.采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销.引入Intermediate CTC结构提高模...

Full description

Saved in:
Bibliographic Details
Published in计算机工程 Vol. 49; no. 10; pp. 105 - 119
Main Authors 赵德春, 舒洋, 李玲, 陈欢, 张子豪
Format Journal Article
LanguageChinese
Published 重庆邮电大学 生物信息学院,重庆 400065%重庆邮电大学 自动化学院,重庆 400065 2023
Subjects
Online AccessGet full text
ISSN1000-3428
DOI10.19678/j.issn.1000-3428.0065685

Cover

More Information
Summary:TP81; Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制.为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB.以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度.采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销.引入Intermediate CTC结构提高模型训练时对编码器的约束能力,减小DRB判断冗余帧的误差,降低DRB方法对模型识别精度造成的损失.在开源数据集AISHELL-1与LibriSpeech上进行实验,结果表明,使用DRB的两阶段重打分非自回归解码方法在2个数据集上均能对解码速度取得58%左右的加速效果,且识别精度几乎没有损失,实现了解码效率的显著提升.
ISSN:1000-3428
DOI:10.19678/j.issn.1000-3428.0065685