丢弃冗余块的语音识别Transformer解码加速方法
TP81; Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制.为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB.以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度.采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销.引入Intermediate CTC结构提高模...
Saved in:
| Published in | 计算机工程 Vol. 49; no. 10; pp. 105 - 119 |
|---|---|
| Main Authors | , , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
重庆邮电大学 生物信息学院,重庆 400065%重庆邮电大学 自动化学院,重庆 400065
2023
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 1000-3428 |
| DOI | 10.19678/j.issn.1000-3428.0065685 |
Cover
| Summary: | TP81; Transformer及其变体因具有强大的上下文建模能力而成为语音识别领域的主流模型,它们能够取得良好的识别结果,但是其中的解码器使用带有冗余信息的全部编码器特征,导致模型的解码速度受到限制.为提高解码器效率,提出一种丢弃冗余空白块的Transformer解码加速方法DRB.以CTC/AED结构作为语音识别基本框架,利用CTC产生的尖峰序列去除编码特征中连续冗余的空白帧,减小编码输出特征的长度,降低解码器的计算量,从而提高模型的解码速度.采用预训练加微调的方式对使用DRB方法的语音识别模型进行训练,以减小因盲目对齐而产生的额外训练开销.引入Intermediate CTC结构提高模型训练时对编码器的约束能力,减小DRB判断冗余帧的误差,降低DRB方法对模型识别精度造成的损失.在开源数据集AISHELL-1与LibriSpeech上进行实验,结果表明,使用DRB的两阶段重打分非自回归解码方法在2个数据集上均能对解码速度取得58%左右的加速效果,且识别精度几乎没有损失,实现了解码效率的显著提升. |
|---|---|
| ISSN: | 1000-3428 |
| DOI: | 10.19678/j.issn.1000-3428.0065685 |