稀疏卷积计算高效数据加载与输出缓存策略

TN492; 针对现有神经网络加速器在处理稀疏神经网络时存在的数据加载效率低、乘加资源利用率低、输出缓存寻址逻辑复杂等问题,提出了稀疏卷积计算高效数据加载与输出缓存策略.将属于同一输入通道的非零输入特征图像数据和非零权重进行全对全乘累加运算,降低了非零数据配对难度,提高了乘加资源利用率;通过采用输入驻留计算,以及密集型循环加载特征图像数据,大幅减少了数据片外调取次数;优化了输出缓存设计,解决了现有方案中存在的输出缓存地址访问争用、存储拥塞等问题.实验表明,与采用类似架构的细粒度脉动加速器相比,在处理单元面积上减少了21.45%;在数据加载速度方面平均提高了117.71%;在平均乘法器利用率方面...

Full description

Saved in:

Bibliographic Details
Published in	国防科技大学学报 Vol. 45; no. 5; pp. 212 - 221
Main Authors	刘彪, 陈长林, 张宇飞, 刘思彤, 唐励勤, 于红旗
Format	Journal Article
Language	Chinese
Published	国防科技大学电子科学学院,湖南长沙 410073 01.10.2023
Subjects	sparse convolution neural network 全对全计算 input stationary neural network accelerator 输入驻留 all-to-all calculation 稀疏卷积神经网络神经网络加速器
Online Access	Get full text
ISSN	1001-2486
DOI	10.11887/j.cn.202305025

Cover

More Information
Summary:	TN492; 针对现有神经网络加速器在处理稀疏神经网络时存在的数据加载效率低、乘加资源利用率低、输出缓存寻址逻辑复杂等问题,提出了稀疏卷积计算高效数据加载与输出缓存策略.将属于同一输入通道的非零输入特征图像数据和非零权重进行全对全乘累加运算,降低了非零数据配对难度,提高了乘加资源利用率;通过采用输入驻留计算,以及密集型循环加载特征图像数据,大幅减少了数据片外调取次数;优化了输出缓存设计,解决了现有方案中存在的输出缓存地址访问争用、存储拥塞等问题.实验表明,与采用类似架构的细粒度脉动加速器相比,在处理单元面积上减少了21.45%;在数据加载速度方面平均提高了117.71%;在平均乘法器利用率方面提高了11.25%,达到89%.
ISSN:	1001-2486
DOI:	10.11887/j.cn.202305025