多核数字信号处理器并行矩阵转置算法优化

TP391; 矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域.随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求.针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT.该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅...

Full description

Saved in:
Bibliographic Details
Published in国防科技大学学报 Vol. 45; no. 1; pp. 57 - 66
Main Authors 裴向东, 王庆林, 廖林玉, 李荣春, 梅松竹, 刘杰, 庞征斌
Format Journal Article
LanguageChinese
Published 国防科技大学 并行与分布处理国防科技重点实验室, 湖南 长沙 410073 01.02.2023
国防科技大学 计算机学院, 湖南 长沙 410073%国防科技大学 计算机学院, 湖南 长沙 410073
Subjects
Online AccessGet full text
ISSN1001-2486
DOI10.11887/j.cn.202301006

Cover

More Information
Summary:TP391; 矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域.随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求.针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT.该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升.实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速.
ISSN:1001-2486
DOI:10.11887/j.cn.202301006