“从一些方面看,机器视觉比人类视觉更好。但是现在研究人员找到了一类能够轻松‘愚弄’机器视觉的‘对抗性图像’。“——来自arXiv的Emerging Technology。
现代科学最了不起的进步之一就是机器视觉的兴起。最近几年,新一代机器学习技术已经改变了计算机“看见”世界的方式。
现在,机器在人脸识别和物品识别方面已经超越了人类,并将改变无数基于视觉的任务,例如驾驶、安全监控等等。机器视觉现在简直是超人。
但是有一个问题出现了。机器视觉研究人员已经注意到,这项新技术有一些让人担心的弱点。实际上,机器视觉算法有一个阿基里斯之踵,使它们被一些经过微扰的图像捉弄,而这些图像对于人类来说非常浅显易见。
这些经过修改的图像被称为“对抗性图像,成为一种重要的威胁。“在人脸识别领域,一个对抗性例子可能由脸部非常细微的标记构成,因此人会正确识别出图像中的身份,而机器学习系统会将其识别为一个不同的人。”谷歌Brain的Alexey Kurakin、Samy Bengio以及非营利机构OpenAI的Ian Goodfellow说。
他们在论文中称,这种对抗性攻击除了能影响完全在计算机中运行的系统,例如逃避垃圾邮件过滤器或病毒软件监测器,还能影响在物理世界中运行的系统,例如通过摄像头及其他传感器感知世界的机器人、视频监控系统以及图像和声音分类的移动应用。
因为机器视觉还非常新,我们对于对抗性图像还知之甚少。没人知道如何最好地创造它们、如何用它们来愚弄机器视觉系统、或者如何预防此类攻击。
现在,Kurakin及同事的研究开始改变这一现状,他们对对抗性图像首次展开了系统研究。他们的研究说明了机器视觉系统在此类攻击之下多么脆弱。
团队开始使用了一个机器视觉研究的标准数据库,名叫 ImageNet。这个数据库的图像根据显示的内容进行分类。一个标准测试是基于这个数据库的一部分来训练一个机器视觉算法,然后利用数据库的另一个部分来测试算法能否良好进行分类。
测试表现的测量方法是统计算法中最高五项回答、甚至最高一项回答中正确分类的频率(被称为前五准确率和前一准确率),或者中前五项或一项中回答不正确的频率(其前五错误率或者前一错误率)。
最好的机器视觉系统之一是谷歌的 Inception v3 算法,其前五错误率为3.46%。进行同样任务的人类的前五错误率为大约5%,因此 Inception v3 确实具有超人般的能力。
Kurakin和同事通过3种不同的方式修改了50,000张 ImageNet 的图像,从而创造了一个对抗性图像的数据库。他们的方法是基于这个概念:神经网络处理信息,来将一个图像与某个类别匹配起来。这项处理所需的信息量被称为交叉熵,会体现出匹配任务的难度。
他们的第一个算法对图像进行了一个小改变,试图最大化这项交叉熵。他们的第二个算法只是将这个过程迭代,进一步改变图像。
这两项算法都改变了图像,使其更难正确分类。“这些方法可以造成一些比较无聊的错误分类,例如将一种雪橇狗错认为另一种雪橇狗。”
他们最终的算法有更聪明的方法。这种对图像的改变让机器视觉系统出现某种特定分类错误,更倾向于最不可能的类别。“最不可能的分类通常是与正确分类非常不同的,因此这项方法会造成更有趣的错误,例如将一只狗错认为一架飞机。” Kurakin 及同事说。
然后,他们测试了谷歌 Inception v3 算法能否良好分类50,000个对抗性图像。
这两个简单的算法大大降低了前五和前一精确度。但是他们最强大的算法——最不可能的分类法——将所有50,000个图像的精确度迅速减少至零。(团队未透露算法在指引错误分类方面是否成功。)
这意味着对抗性图像是一个重要威胁,但是这种方法也有一种潜在的弱点。所有对抗性图像都是直接输入机器视觉系统的。
但是在真实世界中,图像总是经过摄像头系统的改变。如果这项过程中和了其效果,一个对抗性图像算法就是无用的。因此,弄清楚算法如何应对真实世界的改变就非常重要。
为了测试,Kurakin 和同事讲所有对抗性图像和原始图像打印出来,并手动用一个 Nexus 5 智能手机进行拍照。然后,再将这些经过转变的对抗性图像输入机器视觉系统。
Kurakin 和同事说最不可能类别方法受到这些转变的影响最大,不过其他方法的承受度都还可以。换句话说,对抗性图像算法在真实世界中的确是一种威胁。“很大一部分用原创网络制造的对抗性图像被错误分类了,即便是通过摄像头输入分类器。”团队称。
这项研究非常有趣,对于机器视觉的阿基里斯之踵带来了新的认识。并且未来还有很多研究要做。Kurakin 和同事希望针对其他类型的视觉系统开发对抗性图像,使其更加高效。
这在计算机安全领域会引发讨论。机器视觉系统现在比人类更能够识别人脸,因此很自然我们会想到在更多的领域使用该技术,从解锁智能手机和家门,到护照管控以及银行账号的身份信息。但是 Kurakin 和同事提出了轻松“愚弄”这些系统的可能性。
最近几年,我们经常听到机器视觉系统能有多好。现在,我们才发现他们还有蠢蠢的阿基里斯之踵。
在此,雷锋网为大家分享来自谷歌Brain和 OpenAI 科学家、名为《物理世界中的对抗性例子》论文全文。
摘要
大部分现有的机器学习分类器都很容易受到对抗性例子的影响。一个对抗性例子是一个输入数据样本,经过了某种微扰,目的是使机器学习分类器错误分类。在很多情况下,这些微扰会非常微小,以至于人类观察者可能根本不会留意到这些变化,而分类器仍然会犯错。对抗性例子会引发安全顾虑,因为它们可以被用于攻击机器学习系统,即便是对抗性不涉及底层模型。目前为止,所有之前的研究都假设了一个威胁模型,其中对抗性能将数据直接输入机器学习分类器。然而对于在物理世界中运行的系统来说并不总是这样的,例如那些使用摄像头或其他传感器的信号作为输入的系统。这篇论文显示了即便是在这样的物理世界情景中,机器学习系统也会受到对抗性例子的影响。我们证明这一点的方法是,将从手机摄像头中获得的对抗性图像输入一个 ImageNet Inception 分类器,并测量系统的分类精度。我们发现,很大一部分对抗性例子被错误分类了,即便是从摄像头中获得的图像。
1、简介
最近机器学习和深度神经网络方面的进展让研究人员能够解决多个重要的实际问题,例如图像、视频、文字分类及其他(Krizhevsky et al., 2012; Hinton et al., 2012; Bahdanau et al., 2015)。
但是,机器学习模型经常受到其系统输入中对抗性操作的影响,目的是引发错误分类(Dalvi et al., 2004)。尤其是机器学习模型中的神经网络等其他许多类别,特别容易受到基于测试时系统输入中的小修改的攻击影响(Biggio et al., 2013; Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b)。
问题可以总结如下。假设有一个机器学习系统 M 和输入样本 C,我们称其为干净例子。假设样本 C 中机器学习系统中正确分类,即:M(C) = ytrue。我们可以打造一个对抗性例子 A,与 C 在感官上无法区分,但是被系统错误分类,即:M(A) ≠ ytrue。这些对抗性例子比通过噪音改变的例子更频繁地被错误分类,即便是噪音的广度超过对抗性影响的广度(Szegedy et al., 2014)。
对抗性例子对实用的机器学习应用造成潜在的安全威胁。其中,Szegedy et al. (2014)提出了一个特别设计为在模型 M1 中被错误分类的对抗性例子,经常也会被模型 M2 错误分类。这种对抗性例子的可转移特点意味着我们可以生成对抗性例子,并且无需涉及底层模型就能对机器学习系统进行错误分类攻击。Papernot et al. (2016a、b) 在现实情境中证明了此类攻击。
但是,所有关于针对神经网络的对抗性例子的先前研究利用了一个威胁模型,其中攻击者直接向机器学习模型中提供输入。这样,对抗性攻击依赖于输入数据修改的良好调试。
这样的威胁模型可以描述一些情景,其中攻击完全在计算机中发生,例如作为逃避垃圾邮件过滤器或者病毒软件监测 (Biggio et al., 2013; Nelson et al.)。但是,实践中许多的机器学习系统在物理环境中运行。可能的例子包括但不限于:通过摄像头及其他传感器感知世界的机器人、视频监控系统以及图像和声音分类的移动应用。在这类情境中,对抗性不能依赖于输入数据中基于像素的良好调整。因而产生了以下问题:是否还有可能打造对抗性例子,对在物理世界里运行的机器学习系统进行对抗性攻击,并通过各种传感器而非数字化表征来感知数据?
一些早先的研究已经探索了机器学习系统的物理攻击问题,但不是通过在输入中制造微小的干扰来愚弄神经网络。例如,Carlini et al. (2016) 显示了一个攻击创造出的声音输入,移动手机识别其为包含有意义的语音指令,而人类听起来是无意义的一句话。基于照片的面部识别系统很容易受到回放攻击的影响,其中给摄像头呈现一个授权用户之前抓取的面部图像,而非一个真实的人脸(Smith et al., 2015)。原则上,对抗性例子可以应用于任一个物理领域中。语音命令领域中的一个对抗性例子会包括一个对于人类来说看起来无害的录音(例如一首歌),但是其中包含机器学习算法会识别出的语音指令。一个面部识别领域的对抗性例子可能包括面部非常微妙的改动,因此一个人类观察者会正确识别出他们的身份,但是机器学习系统会将他们认作一个不同的人。
这篇论文中,我们探索在物理世界中针对图像分类任务创造对抗性例子的可能性。为了这个目的,我们用一个预先训练的 ImageNet Inception 分类器进行了一个实验(Szegedy et al., 2015)。我们为这个模型生成了对抗性例子,然后将这些例子通过一个手机摄像头输入分类器,并测量分类精度。这个情景是一个简单的物理世界系统,通过一个摄像头感知数据,然后运行图像分类器。我们发现,很大一部分从原始模型中生成的对抗性例子即便是通过摄像头感知,仍然被错误分类。
出人意料的是,我们的攻击方法不需要针对摄像头的出现做出任何修改——这是使用对抗性例子、为 Inception 模型打造的最简单的攻击,其带来的对抗性例子成功转移到了摄像头与 Inception 模型的结合中。因此,我们的结果给出了较低的攻击成功率,可以通过更有针对性的攻击实现,在打造对抗性例子的时候明显地模拟摄像头。
我们的结果的限制是,我们假设了一个威胁模型,其中攻击者完全了解模型架构和参数值。这基本上是因为我们可以在所有实验中使用一个单一的 Inception v3 模型,而不需要设置和训练不同的高效模型。对抗性例子的转移特性意味着,当攻击者不了解模型描述的时候,我们的结果可能微弱地延展到情景中(Szegedy et al., 2014; Goodfellow et al., 2014; Papernot et al., 2016b)。
为了更好理解摄像头引起的重要图像转变如何影响对抗性例子的转移性,我们进行了一系列额外的实验,研究了对抗性例子如何在若干个具体类型的图像转换合成中转移。
论文剩余的部分将如此安排:在第2部分,我们回顾用于生成对抗性例子的不同方法。接下来第3部分将详细讨论我们的“物理世界”实验设置和结果。最后,第4部分描述使用了各种人工图像转换(例如改变亮度、对比度等)的实验,以及它们如何影响对抗性例子。
2、生成对抗性图像的方法
这个部分描述我们在实验中使用的不同的生成对抗性图像的方法。值得注意的是,没有任何一个描述中的方法保证生成的图像会被错误分类。然而,我们将所有生成的图像称为“对抗性图像”。
在论文的剩余部分我们将使用以下标记:
X - 一个图像,通常是3D张量(长 x 宽 x 高)。在这篇论文中,我们假设像素值是在[0,255]之间的整数。
ytrue - 图像 X 的真实类别。
J(X,y) - 基于图像 X 和类别 y,神经网络的交叉熵成本函数。我们在成本函数中有意忽视神经网络权重(及其他参数) θ,因为我们假设在论文的条件中它们是固定的(固定为训练机器学习模型所带来的值)。针对带有softmax输出层的神经网络,应用于整数类标签的交叉熵成本函数,等于真实类别的负对数概率:J (X, y) = - log p (y | X),这个关系会在下面用到。
Clip X,∈{ X’ } - 运行图像 X’ 的逐像素剪辑的函数,因此结果会在 L∞ ε- 原图像 X 周边。详细的裁剪方程如下:
其中 X (x, y, z) 是图像 X 在坐标(x, y) 时 z 轴的值。
2.1 快速方法
生成对抗性图像的最简单的方法之一是如 Goodfellow et al.(2014)描述,目标是成本函数的线性化以及解决最大化L∞ 约束的成本。这可以闭合实现,只需要调用一次反向传播:
其中 ε 是一个有待选择的超参数。
这篇论文中,我们将这个方法称为“快速方法”,因为它不需要一个迭代过程来计算对抗性例子,这样比其他考虑的方法更快。
2.2 基本迭代方法
我们引入了一个直接的方式来延伸“快速”方法——我们用小步长将其应用多次,并在每一步之后剪切中间结果的像素值,来确保它们在原始图像的 ε -周边之内:
在我们的实验中,我们使用 α = 1,也就是说,我们将每一个像素的值每一步只改变1。我们选择迭代次数最少为(ε + 4,1.25 ε)。这个迭代次数是以启发式方法选择的;这足够让对抗性例子到达 ε 最大范数,同时有足够的限制,让实验的计算成本值控制范围内。
以下我们将这个方法称为“基本迭代”方法。
2.3 迭代最不可能类别方法
我们目前描述过的两种方法只是试图增加正确类型的成本,而不说明模型应该选择哪一种不正确的类别。这样的方法对于数据库应用来说足够了,例如 MNIST 和 CIFAR - 10,其中类型的数量少,而且所有类型之间的差别很大。在 ImageNet,类型数量多得多,而且不同类别之间的差别度各异,这些方法可能造成比较无趣的错误分类,例如将一种雪橇狗错认为另一种雪橇狗。为了制造更有趣的错误分类,我们引入了迭代最不可能类别方法。这种迭代方法试图制造的对抗性图像会根据预期被分类为特定的目标类别。至于期望类别,我们使用基于图像 X 训练而训练的神经网络来预测,选择最不可能的类别:
对于一个训练良好的分类器来说,最不可能的类别通常是与真实类别高度不同的,因此这项攻击方法会造成更加有趣的错误,例如将一只狗错误识别为一架飞机。
要制造一个被分类为 yLL 的对抗性图像,我们在该方向进行迭代步骤:
将 log p(yll | X) 最大化。最后的一个方程对于带有交叉熵损失的神经网络来说等于:。
这样,我们就有了以下的步骤:
对于这个迭代过程,我们与基本迭代方法使用同样的 α 和同样的迭代次数。
下面我们将此方法称为“最不可能类别”方法,或者简称“l.l. 类别”。
2.4 生成对抗性例子的方法比较
正如上面所提,对抗性图像不能保证一定会被错误分类——有时候攻击者获胜,有时候机器学习模型胜利。我们做了对抗性方法的实验比较,来理解生成图像实际的分类精度,以及每一种方法所利用的微扰类型。
实验使用了从 ImageNet 数据库(Rusakovsky et al., 2014)中而来的共50,000个验证图像,使用一个预先训练的 Inception 3 分类器(Szegedy et al., 2015)。对于每一个验证图像,我们使用不同的方法和不同的 ε 值。对于每一组方法和 ε,我们在所有50,000个图像上计算分类精度。另外,我们在所有干净图像上计算精度,用作基准。
图表 1 和 2 中展示了生成的对抗性图像例子。干净图像和对抗图像的前一和前五分类精度总结在图表3中。
如图表3中所示,快速方法即便是使用 ε 的最小值,也将前一精度降低了二分之一,将前五精度减少了大约40%,随着我们增加 ε 值,快速方法所生成的对抗性图像的精度保持不变,直到 ε = 32,然后随着 ε 增加到 128 缓慢降低到近似于 0。这可以解释为:快速方法对每一个图像增加 ε 倍的噪音,因此更高的 ε 值实际上毁坏了图像内容,即便是人类也无法识别,见图 1。
迭代方法利用了很多更良好的微扰,即便是在更高 ε 值的情况下也不毁坏图像,见图 2。
基本迭代方法能够在 ε < 48 时生成更好的对抗性图像,然而当我们提升 ε 值,它无法提升。
“最不可能类型”方法即便是在 ε 相对较小时,也会毁坏大部分图像的正确分类。
图1: 比较使用“快速”方法进行抵抗性微扰而来的图像。顶部图像是一个“膝垫”而底部图像是“垃圾车”。在两种情况中,干净图像都被正确分类了,而对抗性图像在所有考虑的 ε 值中都错误分类了。
图2: 用 ε = 32,比较不同的对抗性方法。迭代方法生成的微扰比快速方法生成的更好。另外,迭代方法不会总是选择 ε-周边边界上的点作为对抗性图像。
图3: 在不通对抗性方法的攻击下,Inception v3 的前一和前五精度,以及与“干净图像”——数据库中未经修改的图像——相比,不同的 ε 值。精度是使用 ImageNet 数据库中共 50,000 个验证图像计算而出。在这些实验中,ε 值的范围是 2 到 128。
图4: 实验设置:(a) 生成的打印,包含干净图像与对抗性图像组,以及一个二维码来帮助自动剪切;(b)手机摄像头制作的打印照片;(c) 从照片中自动剪切的图像。
我们将所有接下来的实验进一步限制为 ε ≤ 16,因为这样的微调即便是被识别到,也只会被认为是小噪音,而对抗性方法可以在干净图像的 ε-周边之内,生成足够数量的错误分类例子。
3. 对抗性例子的图像
3.1 对抗性图像的毁坏率
为了研究对抗性图像强制转换的影响,我们引入了毁坏率的概念。它可以描述为对抗性图像中,经过转化后不再会错误分类的比例。公式化定义如下方程(1):
其中 n 是用于计算毁坏率的图像个数,Xk 是一个数据库中的图像,是这个图像的真实类别,是对应的对抗性图像。函数 T(*) 是一个强制性图像转换——这篇论文中,我们研究各种转换,包括打印图像和对结果进行拍照。函数 C (X, y) 是一个指示函数,返回图像是否正确分类:
我们将这个指示值的二进制否定标记为,计算方式是= 1 - C ( X, y )。
3.2 实验设置
为了探索物理对抗性例子的可能性,我们用对抗性例子的图片进行了一系列实验。我们打印了干净图片和对抗性图片,为打印的页面拍了照片,并从完整页面中将打印图片剪切了出来。我们可以认为这是一个黑盒转化,我们称为“照片转化”。
我们用干净图像和对抗性图像,分别在照片转化之前及之后计算精度,并计算由于照片转化而来的对抗性图像的毁坏率。
实验过程如下:
1、打印图像,如图4a。为了减少手工工作量,我们在每张纸上打印了多组干净和对抗性例子。另外,打印的边角还放置了二维码来帮助自动剪切。
所有打印的生成图像(图4a)保存为无损 PNG 格式。
一批批 PNG 打印使用 ImageMagick 套装里的默认设定:convert * .png output.pdf 转化为多页 PDF 文档。
生成出来的 PDF 文档使用一个 Ricoh MP C5503 办公室打印机来打印。PDF 文档的每一页都使用默认打印机大小调整来自动调整大小,来适合整张纸。打印机像素设置为 600dpi。
2、使用手机(Nexus 5x)来对打印的图像拍照,见图4b。
3、自动剪切和包裹图片中的验证例子,这样它们会变成与原图像同样大小的正方形,见图4c:
(a)监测照片四角上的四个二维码的位置和值。二维码包涵了图片中显示的验证例子的批次信息。如果没能成功监测到任何一个边角,整个图像都会被放弃,照片中的图像就不会用来计算精度。我们观察到,任何实验中,所有图像中不超过10%的图像被放弃,通常被放弃的图像大约为3%到6%。
(b)使用透视转换来包裹图像,从而将二维码的位置移入预先定义的坐标。
(c)图像包裹后,每一个例子都有了已知的坐标,能够很容易从图像中剪切出来。
4、在转化图像和原图像上运行分类。计算对抗性图像的精度和毁坏率。
这个过程包括了将打印页面进行手动拍照,不需要仔细控制灯光、摄像机角度和到页面的距离等因素。这是故意的;这引入了细微的变化,有可能会毁坏对抗性微扰,因为它依赖细微的、良好适应的精确像素值。不过,我们没有故意使用极端的摄像机角度或者灯光情况。所有照片都是在正常的室内照明、以大致正对页面的摄像机拍摄的。
对每一组对抗性例子生成方法以及 ε,我们进行两组实验:
平均情况:
为测量平均情况表现,我们在一个实验中随机选择了102个图像,用一个既定 ε 和对抗性方法。这个实验估测对抗性成功攻击随机选择照片的频率——外界随机选择一个图像,对抗性试图让其被错误分类。
预先筛选的情况:
为了研究更主动的攻击,我们用预先筛选过的图片进行了试验。具体来说,我们选择了102个图像,这样所有干净图像都正确分类了,而所有对抗性图像(在图片转换前)都错误分类了(前一和前五分类都是)。此外,我们为最高预测使用了置信度阈值:p (ypredicted | X) ≥ 0.8,其中ypredicted 是网络预测的图像 X 的类别。这个试验测量当对抗性可以选择攻击哪一个原始图像时的成功频率。在我们的威胁模型之下,对抗性可以涉及模型的参数和架构,因此攻击者总是可以进行干涉,来确定攻击在没有照片转化的情况下是否会成功。攻击者可能会期望,通过选择会在这个初始阶段成功的攻击,来实现最佳效果。受害者然后会对攻击者选择展示的物理目标再拍一个新照片,图片转化可能会保留或毁坏攻击。
表格1:平均情况中,对抗性图像照片的精度(随机选择的图像)。
表格2:预先筛选情况中,对抗性图像照片的精度(干净图像正确分类,对抗性图像会确保进行不正确分类)。
表格3:照片的对抗性图像毁坏率。
3.3 对抗性图像照片的实验结果
图片转化实验结果总结再表格1、2和3中。
我们发现,“快速”对抗性图像对于照片转化比迭代方法更强。这可以解释为迭代方法利用更加微妙的微扰,而这些微扰更可能被图片转化所毁坏。
有一个预期之外的结果是,在一些情况下,对抗性毁坏率在“预先筛选情况”中比“平均情况”中的更高。在迭代方法的情况中,即便是预先筛选图像的总成功率也比随机选择的图像更低。这意味着要获得非常高的置信度,迭代方法经常进行微妙的调整,不能适应图片转化。
总体来说,结果显示对抗性例子的一些部分即便是在非浅显的转化后也仍被错误分类:图片转化。这证明了物理对抗性例子的可能性。例如,一个使用 ε = 16 快速方法的对抗性例子,可以预计有 2/3 的图像会出现前一错误分类,而1/3的图像会出现前五错误分类。因此,通过生成足够多的对抗性图像,对抗性预计可以比自然输入造成多得多的错误分类。
4、人工图像转化
图5:对改变亮度的转化,各种不同对抗性方法的对抗性毁坏率比较。所有实验都是以 ε = 16 来进行。
之前部分描述的图片转化可以被认为是一种更简单的图像转化的综合。因此,为了更好理解,我们进行了一系列实验,来测量人工图像转化的对抗性毁坏率。我们探索来以下转化组:改变对比度和亮度、高斯模糊、高斯噪音以及 JPEG 编码。
对这一组实验,我们使用了1,000个图像的一个子集,从验证组中随机选择而出。这个1,000个的子集为一次性选出,这样,所有这个部分的实验都使用同样的图像子集。我们为多对对抗性方法和转化进行了实验。对每一组转化和对抗性方法,我们计算对抗性例子,为对抗性例子应用转化,然后 根据方程(1)计算毁坏率。
当 ε = 16,各种转化和对抗性方法的结果总结在图5、6、7、8和9中。我们可以得出以下的总体观察结果:
快速方法生成的对抗例子是面对转化时最强的,迭代最不可能类型方法生成的对抗性例子是最弱的。这与我们在图片转化中的结果一致。
前五毁坏率通常比前1毁坏率高。这可以解释为:为了“毁坏”前五对抗性例子,必须要有一个转化来将正确分类的标签推进前五项预测之一。然而,为了毁坏前1对抗性例子,我们必须将正确的标签推入前1项预测,这是一个更加严格的要求。
改变亮度和对比度对于对抗性例子没有太大的影响。快速方法和基本迭代对抗性例子的毁坏率小于5%,迭代最不可能类别方法的毁坏率小于20%。
模糊、噪音和 JPEG 编码比改变亮度和对比度有更高的毁坏率。尤其是对于迭代方法来说,毁坏率可以高达80% - 90%。然而,没有任何一个转化毁坏100%的对抗性例子,这与“图片转化”实验中的结果一致。
图6:改变对比度的各种对抗性方法的对抗性毁坏率比较。所有实验都是以 ε = 16 进行。
图7:高斯模糊转化的各种对抗性方法的对抗性毁坏率比较。所有实验都是以 ε = 16 进行。
图8:高斯噪音转化的各种对抗性方法的对抗性毁坏率比较。所有实验都是以 ε = 16 进行。
图9:JPEG 编码转化的各种对抗性方法的对抗性毁坏率比较。所有实验都是以 ε = 16 进行。
5、结论
这篇论文中,我们探索了这种可能性:针对在物理世界中运行的机器学习系统,创造对抗性例子。我们使用了手机摄像头拍摄的图像,输入一个 Inception v3 图像分类神经网络。我们显示了在这样一个设置中,使用原始网络制造的对抗性图像中,有足够多的部分被错误分类了,即便是通过摄像机来输入分类器。这项发现证明了物理世界中的机器系统具有对抗性例子的可能性。未来的研究中,我们期望证明还有可能使用除了打印在纸上的图像以外其他类型的物理物品,来攻击不同类型的机器学习系统——例如复杂的增强学习代理——无需涉及模型的参数和架构,就能实施攻击(假设使用转移特性),以及通过在对抗例子打造过程中,明确地模拟物理转化,从而实现更高成功率的物理攻击。我们还希望未来的研究会开发高效的方法,来防御这样的攻击。
via MIT Tech Review