基于图像降噪与压缩的对抗样本检测方法

TP391; 深度学习在计算机视觉领域的许多成果已广泛应用于现实生活.然而,对抗样本能够让深度学习模型以高置信度产生误判,进而造成严重的安全后果,同时对抗样本检测方法普遍存在计算成本高或依赖样本统计特性等问题.为此,提出一种基于预测不一致的对抗样本检测方法.若将对抗扰动视作不必要的特征,通过图像降噪或压缩技术来压缩样本的特征空间,从而减少对抗扰动.通常压缩特征空间前后的正常样本在深度学习模型中的分类结果差别较小,而相同处理前后对抗样本的分类结果差别较大.通过测量深度学习模型对原输入的预测结果与压缩特征空间后输入预测结果之间的距离来检测对抗攻击,若其大于阈值,则该输入具有对抗性.该检测方法的训练...

Full description

Saved in:

Bibliographic Details
Published in	计算机工程 Vol. 49; no. 10; pp. 230 - 238
Main Authors	王飞宇, 张帆, 杜加玉, 类红乐, 祁晓峰
Format	Journal Article
Language	Chinese
Published	信息工程大学信息技术研究所,郑州 450002%国家数字交换系统工程技术研究中心,郑州 450002%网络通信与安全紫金山实验室,南京 211111 2023
Subjects	deep learning 图像降噪 image compression 深度学习对抗样本检测 adversarial examples detection 图像压缩对抗样本 image denoising adversarial examples
Online Access	Get full text
ISSN	1000-3428
DOI	10.19678/j.issn.1000-3428.0065638

Cover

More Information
Summary:	TP391; 深度学习在计算机视觉领域的许多成果已广泛应用于现实生活.然而,对抗样本能够让深度学习模型以高置信度产生误判,进而造成严重的安全后果,同时对抗样本检测方法普遍存在计算成本高或依赖样本统计特性等问题.为此,提出一种基于预测不一致的对抗样本检测方法.若将对抗扰动视作不必要的特征,通过图像降噪或压缩技术来压缩样本的特征空间,从而减少对抗扰动.通常压缩特征空间前后的正常样本在深度学习模型中的分类结果差别较小,而相同处理前后对抗样本的分类结果差别较大.通过测量深度学习模型对原输入的预测结果与压缩特征空间后输入预测结果之间的距离来检测对抗攻击,若其大于阈值,则该输入具有对抗性.该检测方法的训练集选取与对抗样本无关,而且无须对原深度学习模型进行调整.实验结果表明,该方法在保证较低假阳性率的同时,能够对快速梯度符号法(FGSM)、JSMA和C&W等经典攻击进行有效检测,在MNIST和CIFAR-10数据集上的平均检测率高达99.77%和87.90%.
ISSN:	1000-3428
DOI:	10.19678/j.issn.1000-3428.0065638