适配PAICORE2.0的硬件编码转帧加速单元设计

为了解决北京大学脉冲神经网络芯片PAICORE2.0类脑终端系统中软件编码和转帧过程速度较慢的问题,提出一种硬件加速方法.通过增加硬件加速单元,将Xilinx ZYNQ的处理系统PS端串行执行的软件编码转帧过程转移到可编程逻辑PL端的数据通路中流水化并行执行.硬件加速单元主要包含高度并行的卷积单元、参数化的脉冲神经元和位宽平衡数据缓冲区等.实验结果表明,该方法在几乎不增加数据通路传输延迟的前提下,可以消除软件编码和转帧过程的时间开销.在CIFAR-10图像分类的例子中,与软件编码和转帧方法相比,硬件编码转帧模块仅增加9.3%的LUT、3.7%的BRAM、2.6%的FF、0.9%的LUTRAM、...

Full description

Saved in:
Bibliographic Details
Published in北京大学学报(自然科学版) Vol. 60; no. 5; pp. 786 - 798
Main Authors 丁亚伟, 曹健, 李琦彬, 冯硕, 杨辰涛, 王源, 张兴
Format Journal Article
LanguageChinese
Published 北京大学软件与微电子学院,北京 102600%北京大学集成电路学院,北京 100871%北京大学集成电路学院,北京 100871 20.09.2024
北京大学深圳研究生院集成微系统科学工程与应用重点实验室,深圳 518055
Subjects
Online AccessGet full text
ISSN0479-8023
DOI10.13209/j.0479-8023.2024.066

Cover

More Information
Summary:为了解决北京大学脉冲神经网络芯片PAICORE2.0类脑终端系统中软件编码和转帧过程速度较慢的问题,提出一种硬件加速方法.通过增加硬件加速单元,将Xilinx ZYNQ的处理系统PS端串行执行的软件编码转帧过程转移到可编程逻辑PL端的数据通路中流水化并行执行.硬件加速单元主要包含高度并行的卷积单元、参数化的脉冲神经元和位宽平衡数据缓冲区等.实验结果表明,该方法在几乎不增加数据通路传输延迟的前提下,可以消除软件编码和转帧过程的时间开销.在CIFAR-10图像分类的例子中,与软件编码和转帧方法相比,硬件编码转帧模块仅增加9.3%的LUT、3.7%的BRAM、2.6%的FF、0.9%的LUTRAM、14.9%的DSP以及14.6%的功耗,却能够实现约8.72倍的推理速度提升.
ISSN:0479-8023
DOI:10.13209/j.0479-8023.2024.066