如何用一束激光欺骗神经网络
来自于CVPR2021的一篇文章"Adversarial Laser Beam: Effective Physical-World Attack to DNNs in a Blink"
这一个在物理世界的对抗样本攻击,以图像分类任务为例,对抗样本就是在正常的图像上添加一些人为的噪声,使得分类器出错,同时人眼无法分辨出这些噪声(肉眼还是能够正常分类的)。
有关于对抗样本攻击,可以参考我的这篇文章
实验结果观察
可以看到并不是随着波长增加,攻击生成率增加,而是当波长到达580nm的时候到达一个峰值。
波长580nm表现为黄色
成功最高的两个配置为上图中右侧的两种情况,看上去似乎是激光覆盖面积越大攻击成功率越高。
能不能防住呢?
由于这种攻击不像传统的对抗样本可以简单生成,所以文章随机添加了一些样本进行训练,结果如下图所示:
可以看到一定程度上降低了成功率,攻击所需的次数也增大了。但是这种物理世界的对抗样本的威胁还是存在的,我们目前的模型仍然可能被其他手段欺骗,鲁棒性AI的目标仍然是一个开放的亟待解决的问题。