MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

机器学习 ICLR 2018

作者：杨文编辑：杨晓凡

2018/02/03 22:06

雷锋网 AI 科技评论：这是一名 MIT CS 在读博士生在推特上引发的争论。

谷歌大脑负责人 Jeff Dean 日前在推特上转了一篇名字为 Anish Athalye 的推文，立刻引起了整个机器学习学术圈的关注，被誉为「GANs 之父」的 Ian Goodfellow 也接连跟帖回复。

Anish Athalye：我们研究了 ICLR 论文，结果并不令人满意

到底是什么言论惊动了众多 AI 界大牛，我们先来看看这篇推文：

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

防御对抗样本仍然是一个尚未解决的问题，三天前公布的 ICLR 接收论文里，八篇关于防御论文里已经有七篇被我们攻破。（只有「aleks_madry」等人的论文中提到的方法在攻击中准确率保持了 47%，没有被攻破）

Anish Athalye 也贴出了自己的 GitHub 地址，https://github.com/anishathalye/obfuscated-gradients ，其中有详细的说明。

雷锋网发现在他的 GitHub 中展示了一个对抗样本的例子，对一只猫的图像加入轻微的干扰就可以使分类器 Inceptionv3 判别错误，将猫头像错认为为「果酱」。他称这样的「欺骗性图像」很容易使用梯度下降法生成。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

根据 GitHub 中的介绍，Anish Athalye 等人近期的论文《Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples》（https://arxiv.org/abs/1802.00420 ）研究了 ICLR 2018 收录的八篇关于防御的论文中的防御对抗样本的鲁棒性，发现其中有七种防御鲁棒性都很有限，可以通过改进的攻击技术攻破。

下面是论文中的一个表格，展示了多种对抗性样本防御方法在攻击下的鲁棒性。（加 * 表示的这些防御方法建议结合对抗性训练使用）

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

根据 Anish Athalye 等人的研究，八篇论文中唯一一篇显著提高对抗样本防御的鲁棒性的论文是：《Towards Deep Learning Models Resistant to Adversarial Attacks》(即上述表格中的准确率 47% 那篇）。除了使用威胁模型以外，没有办法攻破这种防御。即便如此，这种防御方法也是难以扩展到 ImageNet 规模的。其余的七篇论文无论是有意还是无意都在依赖于「混淆梯度」。一般的攻击利用梯度下降法使给定图像网络损失最大化，从而在神经网路上产生对抗样本，这种优化方法需要有用的梯度信号才能成功。基于混淆梯度的防御会破坏这种梯度信号，并导致优化方法失效。

Anish Athalye 等人定义了三种基于混淆梯度的防御方式，并构建了绕过每一种攻击的方法。新的攻击方法适用于任何有意的、无意的、包括不可微分操作或以其他方式防止梯度信号流经网络的任何防御。研究员们希望用此方法进行更彻底的安全评估。

《Towards Deep Learning Models Resistant to Adversarial Attacks》
论文摘要
我们意识到「混淆梯度」给防御对抗样本带来的是一种虚假的安全感现象，尽管基于混淆梯度的防御可以打败基于优化的攻击，但我们发现依靠这种效果的防御仍然可以被攻破。
对于我们发现的三种混淆梯度类型中的每一种，我们都会描述展示这种效果的防御指标，并开发攻击技术来攻破它。在样本研究中，我们试验了 ICLR 2018 接收的所有防御措施。我们发现混淆梯度是常见现象，其中 8 个防御中的 7 个依靠混淆梯度。使用我们新的攻击技术，成功攻破了 7 个。
论文地址：https://arxiv.org/abs/1802.00420

Ian Goodfellow：你们其实只研究了一部分论文

Jeff Dean 转发后，很快引起了整个机器学习学术圈的注意。难道这是在质疑 ICLR 2018 收录的论文质量很水吗？由于 Anish 的表态主要是针对对抗性样本的防御问题，很快便吸引了 GANs 的发明者、以及长期研究对抗性样本的 Ian Goodfellow 围观，并在推特评论区接连跟帖回应。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

Goodfellow 回应称，ICLR 2018实际上至少收录有11篇关于防御的论文，其他三篇没有提到，却说只有Madry一篇中提到的方法没有被攻破，这是不公平的。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

Goodfellow：ICRL 实际上至少有 11 篇防御论文，而不是 8 篇。（另外三篇里，）实际上有 2 篇已被证明可防御，还有 1 篇他们没有研究。他们（论文的作者）应该说「所有未经认证的白盒防御」而不是「全部防御」。

另外，Goodfellow 认为这篇论文中提出的「混淆梯度」简直就像是给「梯度掩码」换了个名字而已。为了让大家对「梯度掩码」的概念更加了解，Goodfellow 还推荐了相关文献。

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

与此同时，Goodfellow 还丢出了一篇 ICLR 2018 论文（Goodfellow 是作者之一），称已经专门解决了梯度解码的问题了。论文题目： Ensemble Adversarial Training: Attacks and Defenses

MIT在读博士生质疑ICLR 2018防御论文很水？Ian Goodfellow跟帖回应

论文地址：https://arxiv.org/pdf/1705.07204.pdf

不过这一观点截至目前暂未被发出这条震惊学术圈推文的 Anish Athalye 所承认。

雷锋网报道

专题

ICLR 2018 查看更多文章