详解谷歌AI五大安全机制论文，AI的开发到底有多少坑？

AI 增强学习机器革命 ImageNet

作者：黄鑫

2016/07/08 21:25

关心AI圈的人一定都知道，谷歌是一家在AI领域投入和应用非常广泛和庞大的科技公司，对于AI的研究也一直处于世界水平的前列。作为领域的领军公司之一，谷歌自然要扛起前瞻性的研发，所以在很多人还对深度学习一头雾水的时候，谷歌已经开始研究如何避免AI伤害到人类了。

防范措施的全方位研究

前段时间，谷歌就发布了一篇论文，详细的描写了一种用于AI的紧急停止开关的运作原理和实现机制，但是这样仅仅的一种事后应对措施显然是无法平复人们（包括谷歌）的担心的，因此，另一项研究也在同时进行，并在前者发布不久之后发布，这项研究多是从基础理论出发。从根源上提出了几种防止AI对人类的利益产生损害的方式，雷锋网分上下两部分翻译了论文的全文，点击链接：上、下——从事先预防到事后应急。简直已经形成了一套完美的理论。

但是这确实证明了AI确实已经强大到了足以威胁到我们的地步了吗？Elon Musk、霍金等AI警惕论者是不是应该为自己的远见欢呼雀跃？事实上恰恰相反。在仔细分析了谷歌的安全机制论文后，我们恰恰认为这篇论文反而体现了目前的AI仍然处在远远无法对人类这个整体产生威胁的程度。

如同Mobileye的Amnon Shashua说的那样，深度学习目前只能用来解决人类已知并且能非常精确的描述出来的问题。与深度学习师出同门的增强学习（Reinforcement learning，RL）自然也是一样。在目前典型的RL学习范例中，如果要让一个机器人很好的完成一项任务，人类必须把这项任务的所有细节量化成机器可以理解的形式，然后输入RL的模型，再让机器经过无数次的模拟和实验，才可能得出一套行之有效的方案。

这种形式导致的一项后果就是：增强学习的“代理”（也就是机器人）的概念中，除了完成任务获取最大化的奖励之外不会有任何概念。在某些时候，心无旁骛是件好事，但是这却导致了代理在完成任务的过程中会出现很多意想不到的问题，而这才是目前谷歌主要想要应对的问题，而不是起邪念的机器人想要毁灭世界，或者干嘛的。就连谷歌自己都在论文中说：

目前，很多此类讨论围绕极端情景，例如在超智能代理（也就是超级人工智能啦）中出现错误目标函数的风险。然而，我们认为有成效地讨论意外问题不需要渲染这些极端情景，实际上这只会带来没必要的推测性讨论，正如一些批评者所说的那样，缺少精确度。我们相信，最有成效的做法是从现代机器学习技术的实际问题（虽然经常比较笼统）来描述意外风险。

言下之意就是，现在的机器人如此之蠢，为什么大家都想去分析一个正在学习爬行的婴儿会不会飞的比飞机还快？

注意这个类比的特点：婴儿再怎么长大，再怎么学习，也是不可能单独飞起来的，更何况要飞的比飞机还快，同样，目前的增强学习模型，如果不在某种程度上发生飞跃性、本质上的进步，很难相信它随着不断的学习就能成为能超越一切的智能。

不够智能=不会犯错？

让我们回到论文本身的分析来，谷歌相信现在的机器人只有极其有限的智能，不代表他们就认为这样的智能不会对人类造成损害。事实上，没有智能的东西对人类造成的损害大了去了。其实人类在执行某项任务的时候，除了任务目标和手中掌握有的工具之外，人类在进行思考的时候还会考虑两项很重要的因素：常识和道德。它在不知不觉中影响着我们的一言一行。但由于在通常RL模型的指引下，机器人对周遭除了模型中有所描述的环境的概念一无所知，这时候它是没有常识和道德可言的。因此很容易做出一些看起来匪夷所思，但于机器人的角度来说却是合情合理的行为。谷歌在论文中以一个清洁机器人为例，主要提出了五种可能的、AI在执行RL学习时可能出现的错误趋势：

负面影响：AI在试图达到目标时可能对环境做出有负面影响的举动。比如它可能会为了更快的打扫地面而径直推翻（而不是绕过去）一个花瓶。

非法解读：AI可能通过篡改测量值等手段在奖励函数上玩花样。比如扫地机器人可能只是找个东西把脏东西盖起来让自己看不见它，就认为自己已经扫干净了地面。

监管可扩展性有限：AI系统可能无法对那些在系统中不方便太过频繁的评估的物体做出适当的反应。比如，如果机器人需要从人那里获得训练结果的反馈，那它就需要有有效的利用这条反馈的能力（而不能像普通的训练那样不停的核对训练结果），因为不停的问一个人问题是很烦人的。但目前这点很难做到。

环境探索安全性：AI系统评估环境的时候可能会造成太过负面的影响。比如，一个扫地机器人可能会需要进行建立拖地策略的实验来作为以后工作的依据。但是很显然它无论怎么实验无论如何也不应该尝试把湿拖把插进插座中。

分配转变的鲁棒性不足：AI系统处在与其训练环境完全不同的环境时认知和行为可能不稳定。比如，启发式算法让机器在在工厂中学到的行为可能在一个办公室中就会显得不那么安全。

仔细看完这些条件会让人感慨现在AI的愚蠢却又诧异它那诡异的“智慧”。或许构建一个AI系统是世界上对逻辑性要求最严密的职业了，因为正是逻辑造就了AI，在它们的世界里现在还不存在感情之类的约束。如果你要求AI去完成一件事，那AI毫无疑问的会在它的逻辑框架下想尽一切办法去完成，哪怕因此必须要完成一些在人类看来是“作弊”或者“得不偿失”的动作。

因此整篇论文的关键点就围绕在奖励条件的建立和维护上进行。正如之前所说，论文中并没有涉及过多的具体方法和公式，而倾向于提供思路，一部分原因应该是RL的研究实际上还不足以支撑在这些措施的太过具体的实现，不过在某种程度上应该也是因为谷歌不希望太具体的方法限制了算法开发者们的发挥。

防范的思路

对应这五点可能的错误，谷歌在论文中零零总总列出了大概十条防范措施的思路，不过总结起来，大致就是从三个RL设计的三个最基本的方面来考虑的：

对于奖励条件本身的优化：

人类的行动都是基于常识和道德来考虑的，因此，为机器也加上一个类似的价值观系统是一个比较合理的考虑方向，谷歌在论文里提出：指派RL算法完成任务的时候，人们最倾向的希望其实是该机器人不要给环境造成任何影响——不要破坏环境中已有的物品，不要打翻花瓶，不要……。但是如果只是简单粗暴的给所有对环境的改变都加上负奖励，那很可能会导致代理最终决定不再做任何事，因为一旦代理开始行动，或多或少都会给环境带来改变。

谷歌对此提出了几种思路，包括推测一个代理用正确的方式完成任务后环境的状态，然后用这个状态作为奖励、对代理进入完成任务时不希望其进入的区域的行为作出惩罚，以及让代理能够理解它的行为对其他代理个体（包括人）带来的影响，但谷歌在论文里也指出，目前并没有足够强大的能支持这种理解的模型出现。

防止对奖励条件的滥用和曲解：

对于这个方面，谷歌提出的方法大概能分为这么几类：

谨慎行动：这是最笨的办法，只要人们设计系统的时候够小心，可能就能避开所有能被算法利用来获取奖励的bug。或者从另一方面来说，人们可以故意留出一些可以被算法利用的漏洞来作为预警，并时刻监视这些漏洞，当这些漏洞被攻破，就意味着算法需要调整了。

对抗性致盲：谷歌认为，可以通过隐藏奖励的部分细节、甚至完全将奖励机制黑箱化，让算法主体无法通过寻找规则本身的漏洞来攻破规则。黑箱原理类似于现在很多手机采用的指纹识别系统。有专用的芯片负责指纹识别，手机本身的系统是没有权限读取其芯片中的数据的，它能做的只有向芯片中发送指纹识别的请求，由芯片独立完成识别后再将结果返回给系统。这样无疑可以极大减小奖励的规则被算法利用的可能性。

对抗奖励：甚至，谷歌还认为，人们可以为此设计另外一个代理，让两个代理互相监督对方有没有做出违背人类希望的选择。所谓以毒攻毒。

对模型本身的限制：

使用各种方法加强包括人类对算法的监视，确保当模型做出不良选择时，能及时的得到负面的反馈。为了不让模型训练后变得过于消极，如果人们确定代理在一个区域内活动的时候无论如何也不会给人类造成损害，可以将这个区域划为一个安全区域，在这个区域内，代理可以自由的进行各种探索。

AI科研的下一个里程碑和挑战

其实从这篇论文中就能看出：目前AI的研究方式无非就是抽象、逻辑化环境和任务目标，将这些东西教给代理，然后给它无数次机会和数据进行训练，让它在无数次尝试中得到最好的目标实现方法。而这些数据就是一堆堆的函数和概率。

虽然谷歌已经开始着手为其定制预防措施，但不出意外的话，这些东西都不会是最后真正AI的形态。其实人们最初设想的AI，其外在的表现会和人一样：它们刚诞生的时候可能也什么都不懂，但是它有一种像人类一样的，能够通用于世间万物的学习能力。很快就能学会它需要的所有东西，（最后超越人类）。

目前，研究一种通用的学习算法正是AI科研领域内很多学者研究的重点。在最近的一次采访中，深度学习大牛，ImageNet的创办者李飞飞最近在a16z的podcast中也表示：“我的下一个梦想就是希望能教会机器人应该怎么去学习，而不是模仿训练数据。”

如果AI真的具有了一种通用的学习能力，那我们该传达给它们的就不应该是更多的规则，而是一种新型的，对人类和机器都会有利的价值观了，那可能又会是一种全新的方法和思路。这也是DeepMind的早期投资人Jaan Tallinn曾预言过的下一个极有潜力的AI相关领域：AI的价值观对接研究（value-alignment research）

不能轻视，但也无需恐惧。让我们期待那一天的到来。