GLCrowd:基于全局-局部注意力的弱监督密集场景人群计数模型

TP391; 针对人群计数在密集场景下存在背景复杂、尺度变化大等问题,提出了一种结合全局-局部注意力的弱监督密集场景人群计数模型——GLCrowd.首先,设计了一种结合深度卷积的局部注意力模块,通过上下文权重增强局部特征,同时结合特征权重共享获得高频局部信息.其次,利用Vision Transformer(ViT)的自注意力机制捕获低频全局信息.最后,将全局与局部注意力有效融合,并通过回归令牌来完成计数.在Shanghai Tech PartA、Shanghai Tech PartB、UCF-QNRF以及UCF_CC_50数据集上进行了模型测试,MAE分别达到了 64.884、8.958、95...

Full description

Saved in:

Bibliographic Details
Published in	光电工程 Vol. 51; no. 10; pp. 中插5 - 86
Main Authors	张红民, 田钱前, 颜鼎鼎, 卜令宇
Format	Journal Article
Language	Chinese
Published	重庆理工大学电气与电子工程学院,重庆 400054 2024
Subjects	人群计数 crowd counting 弱监督学习 global-local attention 全局-局部注意力 Vision Transformer weakly supervised learning
Online Access	Get full text
ISSN	1003-501X
DOI	10.12086/oee.2024.240174

Cover

More Information
Summary:	TP391; 针对人群计数在密集场景下存在背景复杂、尺度变化大等问题,提出了一种结合全局-局部注意力的弱监督密集场景人群计数模型——GLCrowd.首先,设计了一种结合深度卷积的局部注意力模块,通过上下文权重增强局部特征,同时结合特征权重共享获得高频局部信息.其次,利用Vision Transformer(ViT)的自注意力机制捕获低频全局信息.最后,将全局与局部注意力有效融合,并通过回归令牌来完成计数.在Shanghai Tech PartA、Shanghai Tech PartB、UCF-QNRF以及UCF_CC_50数据集上进行了模型测试,MAE分别达到了 64.884、8.958、95.523、209.660,MSE分别达到了104.411、16.202、173.453、282.217.结果表明,提出的GLCrowd网络模型在密集场景下的人群计数中具有较好的性能.
ISSN:	1003-501X
DOI:	10.12086/oee.2024.240174