适配PAICORE2.0的硬件编码转帧加速单元设计
为了解决北京大学脉冲神经网络芯片PAICORE2.0类脑终端系统中软件编码和转帧过程速度较慢的问题,提出一种硬件加速方法.通过增加硬件加速单元,将Xilinx ZYNQ的处理系统PS端串行执行的软件编码转帧过程转移到可编程逻辑PL端的数据通路中流水化并行执行.硬件加速单元主要包含高度并行的卷积单元、参数化的脉冲神经元和位宽平衡数据缓冲区等.实验结果表明,该方法在几乎不增加数据通路传输延迟的前提下,可以消除软件编码和转帧过程的时间开销.在CIFAR-10图像分类的例子中,与软件编码和转帧方法相比,硬件编码转帧模块仅增加9.3%的LUT、3.7%的BRAM、2.6%的FF、0.9%的LUTRAM、...
Saved in:
| Published in | 北京大学学报(自然科学版) Vol. 60; no. 5; pp. 786 - 798 |
|---|---|
| Main Authors | , , , , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
北京大学软件与微电子学院,北京 102600%北京大学集成电路学院,北京 100871%北京大学集成电路学院,北京 100871
20.09.2024
北京大学深圳研究生院集成微系统科学工程与应用重点实验室,深圳 518055 |
| Subjects | |
| Online Access | Get full text |
| ISSN | 0479-8023 |
| DOI | 10.13209/j.0479-8023.2024.066 |
Cover
| Summary: | 为了解决北京大学脉冲神经网络芯片PAICORE2.0类脑终端系统中软件编码和转帧过程速度较慢的问题,提出一种硬件加速方法.通过增加硬件加速单元,将Xilinx ZYNQ的处理系统PS端串行执行的软件编码转帧过程转移到可编程逻辑PL端的数据通路中流水化并行执行.硬件加速单元主要包含高度并行的卷积单元、参数化的脉冲神经元和位宽平衡数据缓冲区等.实验结果表明,该方法在几乎不增加数据通路传输延迟的前提下,可以消除软件编码和转帧过程的时间开销.在CIFAR-10图像分类的例子中,与软件编码和转帧方法相比,硬件编码转帧模块仅增加9.3%的LUT、3.7%的BRAM、2.6%的FF、0.9%的LUTRAM、14.9%的DSP以及14.6%的功耗,却能够实现约8.72倍的推理速度提升. |
|---|---|
| ISSN: | 0479-8023 |
| DOI: | 10.13209/j.0479-8023.2024.066 |