基于FPGA的油棕检测和硬件加速设计及实现

TP391.41%TP751; 针对深度学习在高分辨率遥感图像下棕榈树检测方面所面临的准确率不高和检测效率低下的问题,从算法优化和异构硬件平台加速两方面提出一种有效可靠的解决办法.以YOLOv3目标检测算法为例,采用扩大特征选择、加大多尺度特征融合的优化策略,提高了算法对高分辨率的棕榈树的检测准确度.在前向推理过程中,许多应用场景在要求模型高性能的同时往往会有严格的功耗限制.针对这个问题,采用权重整形8位量化和计算核心复用的优化策略,设计了一个基于SIMD的高效卷积计算引擎.此外,对输入模块进行了加速改进,通过对输入图片进行维度变化、向量化处理后,以写队列的方式传送给输入模块,提高了总线带宽的...

Full description

Saved in:
Bibliographic Details
Published in计算机科学与探索 Vol. 15; no. 2; pp. 315 - 326
Main Authors 袁鸣, 柴志雷, 甘霖
Format Journal Article
LanguageChinese
Published 江南大学 物联网工程学院 物联网技术应用教育部工程研究中心,江苏 无锡 214122 01.02.2021
国家超级计算无锡中心,江苏 无锡 214122%江南大学 物联网工程学院 物联网技术应用教育部工程研究中心,江苏 无锡 214122%国家超级计算无锡中心,江苏 无锡 214122
清华大学 计算机科学与技术系,北京 100084
Subjects
Online AccessGet full text
ISSN1673-9418
DOI10.3778/j.issn.1673-9418.1912029

Cover

More Information
Summary:TP391.41%TP751; 针对深度学习在高分辨率遥感图像下棕榈树检测方面所面临的准确率不高和检测效率低下的问题,从算法优化和异构硬件平台加速两方面提出一种有效可靠的解决办法.以YOLOv3目标检测算法为例,采用扩大特征选择、加大多尺度特征融合的优化策略,提高了算法对高分辨率的棕榈树的检测准确度.在前向推理过程中,许多应用场景在要求模型高性能的同时往往会有严格的功耗限制.针对这个问题,采用权重整形8位量化和计算核心复用的优化策略,设计了一个基于SIMD的高效卷积计算引擎.此外,对输入模块进行了加速改进,通过对输入图片进行维度变化、向量化处理后,以写队列的方式传送给输入模块,提高了总线带宽的利用率.实验结果表明,经过算法优化后的模型准确率达到了97.84%,在基于Intel Arria10的异构硬件平台上可以获得1.4 TOPS性能,与i9-9980XE CPU相比,性能是它的7.51倍,能效是其33.02倍,与Nvidia推理端专用加速器P40比,能效是其1.2倍.
ISSN:1673-9418
DOI:10.3778/j.issn.1673-9418.1912029