GLCrowd:基于全局-局部注意力的弱监督密集场景人群计数模型
TP391; 针对人群计数在密集场景下存在背景复杂、尺度变化大等问题,提出了一种结合全局-局部注意力的弱监督密集场景人群计数模型——GLCrowd.首先,设计了一种结合深度卷积的局部注意力模块,通过上下文权重增强局部特征,同时结合特征权重共享获得高频局部信息.其次,利用Vision Transformer(ViT)的自注意力机制捕获低频全局信息.最后,将全局与局部注意力有效融合,并通过回归令牌来完成计数.在Shanghai Tech PartA、Shanghai Tech PartB、UCF-QNRF以及UCF_CC_50数据集上进行了模型测试,MAE分别达到了 64.884、8.958、95...
Saved in:
| Published in | 光电工程 Vol. 51; no. 10; pp. 中插5 - 86 |
|---|---|
| Main Authors | , , , |
| Format | Journal Article |
| Language | Chinese |
| Published |
重庆理工大学电气与电子工程学院,重庆 400054
2024
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 1003-501X |
| DOI | 10.12086/oee.2024.240174 |
Cover
| Summary: | TP391; 针对人群计数在密集场景下存在背景复杂、尺度变化大等问题,提出了一种结合全局-局部注意力的弱监督密集场景人群计数模型——GLCrowd.首先,设计了一种结合深度卷积的局部注意力模块,通过上下文权重增强局部特征,同时结合特征权重共享获得高频局部信息.其次,利用Vision Transformer(ViT)的自注意力机制捕获低频全局信息.最后,将全局与局部注意力有效融合,并通过回归令牌来完成计数.在Shanghai Tech PartA、Shanghai Tech PartB、UCF-QNRF以及UCF_CC_50数据集上进行了模型测试,MAE分别达到了 64.884、8.958、95.523、209.660,MSE分别达到了104.411、16.202、173.453、282.217.结果表明,提出的GLCrowd网络模型在密集场景下的人群计数中具有较好的性能. |
|---|---|
| ISSN: | 1003-501X |
| DOI: | 10.12086/oee.2024.240174 |