雷锋网 AI 科技评论按:在谷歌大脑做人工智能研究的Ian Goodfellow近日在推特上推荐了一篇关于防御对抗性样本的论文。这篇论文的内容刚好与他关于测试与验证方法的文章相呼应,可谓是对他提出的机器学习模型安全性堪忧观点的实证。
雷锋网了解到,这篇论文的名字为为「Adversarial Example Defenses: Ensembles of Weak Defenses are not Strong」,“防御对抗性样本:弱的防御方式组合起来也不强”,来自UC伯克利大学。论文关注的是机器学习模型面对攻击性数据时的防御表现,也就是模型的鲁棒性。论文中用生成式的方法修改MNIST和CIFAR-10中的图片,形成对抗性的样本,目的是让分类器对修改后的样本产生误判,借此对分类器的所用防御方法的效果进行评价。
论文中测试了五种不同的防御方式
单独使用降低色深方法(color-depth-reduction defense,能够减少对大量像素的微小改动,是效果较弱的特征压缩方法)
单独使用空间平滑方法(spatial smoothing,能够减少对少量像素的大幅改动,是效果较弱的特征压缩方法)
降低色深和空间平滑这两者的组合(“combination of multiple squeezing techniques”,标题所指的“弱的防御方式的组合”)
使用一组专用识别器,对分类后的图像再次检测攻击性;如果其中有识别器检测到其对应的攻击性特征,就可以通过对分类结果的置信度体现出来(“ensemble of specialists”)
使用三种对抗性攻击检测器的组合(“ensemble of detectors”,三种检测器分别为Gong、Metzen和Feinman)。
下面几张图展示的就是测试结果。第一行是原始图像,通过生成模型修改出的能够使分类器错误分类的攻击图像在第二行。
降低色深法防御CIFAR-10图像(左),空间平滑法防御MNIST图像(右)
空间平滑法防御CIFAR-10图像(左),降低色深和空间平滑组合防御MNIST图像(右)
降低色深和空间平滑组合防御CIFAR-10图像(左),专用识别器防御MNIST图像(右)
可以直观地看到,四种防御方式的效果都非常有限,每一组中的第二行图片只有不大的改动,就已经可以导致分类器对样本的误判。由于MNIST图像比较简单,对于几种防御方式,对抗性处理带来的失真许多时候已经可以看得出来;但CIFAR-10的图像来说,能够骗过分类器的变化仍然都是人眼察觉不到的。
为了量化比较,他们也用把对抗性处理带来的失真(distortion)进行了数值化,虽然几种方法都不理想,但是所需的失真数量确实还是有所区别,能够反映防御能力的高低。
对于第五种防御方法,论文中还选取了另一种指标,就是自适应的攻击图片生成器除了能够骗过它本来目标的检测器之外(为了三种中的一种生成一张攻击图片,成功率轻松达到100%),能否同样轻松地骗过没有作为目标的检测器。结果是为骗Metzen生成的图片(作为source)最容易同样骗过另外两种(作为target),而为Feinman生成的就要差一点。
第五种防御方法里,三种检测器的交叉测试结果
总的来说,现有结果表明弱防御方式的组合并不能显著提高系统的鲁棒性,想要找到能够高效防御对抗性样本的方法还有很长的路要走。
论文中也介绍了他们在生成攻击图像过程中的收获:1. 评估防御能力的时候要想办法生成比较强的攻击图像,最好不要用FGSM这样图快的方法;2. 评估防御能力的时候最好用自适应性的攻击图像生成器,这样对于攻击者知道防御手段的情况也能够提高安全性。
雷锋网 AI 科技评论也会对机器学习模型的安全性和隐私保护问题持续给予关注,请关注更多后续文章。
论文地址:https://arxiv.org/abs/1706.04701
相关文章: