谷歌在人工智能上下了一盘很大的棋

Google 人工智能滴滴 Andrew Ng

2016/04/30 15:26

【雷锋网导读】昨日（4月29日）谷歌CEO在年度公开信中写道，我们将进入人工智能为先的世界，但并没有透露多少细节。本文详尽梳理了谷歌所有的——没错，是所有的——人工智能项目及其开发内幕，供你纵览这家公司打造人工智能帝国的布局。

谷歌在人工智能上下了一盘很大的棋

谷歌如何打造人工智能帝国？

这个搜索巨头正在将它的人工智能服务开源，让每个人都可以使用。2007 年11月，谷歌通过发布安卓手机开源操作系统，为自己在移动市场的支配地位奠定了基础。八年之后，安卓获得了80%的市场份额，如今谷歌又故技重施——这次开源的是人工智能。

不久前，谷歌公布了分布式TensorFlow，它的机器学习开源平台。任何人只要拥有电脑和网络连接（并且懂一点点深度学习算法）就能使用有史以来最强大的机器学习平台。超过50个谷歌产品已采用了TensorFlow ，以便把深度学习（使用深度神经网络的机器学习）当作工具来操控。这些产品有的能从照片应用程序中认出你和你的朋友，有的能改善谷歌的核心搜索引擎。谷歌已经成为了一家机器学习公司。现在谷歌把那些能让其产品独一无二的秘方拿了出来，要让全世界都来使用。

TensorFlow, 人工智能领域的安卓

TensorFlow是一个文件库，它使得研究者和计算机科学家能够建造出系统，对诸如照片或音频等数据进行分解，并由计算机基于这些信息做出关于未来的决策。这便是机器学习的基础：计算机去理解数据，并使用这些数据来做出决策。在极端复杂的情形中，机器学习是一种让计算机变得更聪明的有力武器，而这已属于更广泛的、也更难以定义的人工智能领域了。TensorFlow极其复杂，因为它在吸取和输出数据时具有极高的精度和速度。它毫无疑问已经属于人工智能工具的范畴。

这里有个实质性的细节：TensorFlow系统使用数据流图。在该系统中，具有多重维度（值）的数据从一种数学计算传递到下一种数学计算。这些复杂的数据块被称为张量（Tensors），那些数学计算过程被称为节点（nodes)。数据从一个节点到下一个节点的变化能显示出数据的全面系统关系。这些张量在节点图中流动，而这正是 TensorFlow（“张量流”）这一名称的由来。

当然，开源的TensorFlow使得研究人员甚至研究生们都有机会用这一专业级软件来工作。但这样做的真实后果是，谷歌将有潜力将其影响力渗透到市场上的每家机器学习公司的研究之中。现在，企业无论大小——不管是微小的初创公司还是与谷歌并肩的巨头——都可以启用TensorFlow系统，按自己的需要来调整它，并使用它来与谷歌进行竞争。最最要紧的是，TensorFlow的发布使得谷歌这家全球最大的互联网公司具有了人工智能领域的权威地位。

斯坦福的计算机科学教授Christopher Manning三个月前就可以使用TensorFlow，所以他的学生那时起就有机会去摆弄这个系统。经过几周的使用之后，Manning决定他将在自己的课程中使用TensorFlow。除了把TensorFlow 比喻成人工智能界的安卓之外，他还把TensorFlow平台比作Gmail这个谷歌最普及的邮件服务。邮件服务领域仍存在着大量竞争者，但Gmail更干净，并且在大多数应用中更可行。

“并不是说，在TensorFlow出现之前不存在任何高水平的深度学习库。”Mining 说，“不过大体上，其他库都是一些三个学者加一个研究生就能搞出来的东西。”

谷歌在人工智能上下了一盘很大的棋

图片团队的研究员 Tom Duerig 说，即使谷歌的雇员能看到用户的照片，这对公司的研究也没什么用。

“我们希望能从根本上加速机器学习研究和部署。”

尽管像Torch和Theano等其他应用程序也有小的更新，但这次谷歌出动全部研发力量来发展其机器学习方面的基础设施，这是前所未有的。Manning说，一方面，TensorFlow是谷歌送给机器学习社区的一份大礼（这份礼物能让用于优化神经网络的时间减少一百倍），另一方面，谷歌也能通过将该工具开源而间接地获利。

“少数几家公司一直在试图把人工智能领域中的一大部分有才华者都雇佣到自己手下，特别是在深度学习领域。” Manning说。“谷歌不是慈善机构。我可以肯定，当谷歌开放这个平台后，我们会有许多博士生在大学的时候就已经喜欢上谷歌的深度学习工具了。”

谷歌的顶级工程师，Tensorflow的两位作者之一（另一位是 Rajat Monga）Jeff Dean在预估机器学习社区对TensorFlow的采用情况时态度很谨慎。他说，尽管谷歌在工作中发现TensorFlow极其有用，但它能否被广泛采用取决于整个社区是否觉得TensorFlow很有用。重要的是，为整个社区提供一个工具，通过使用它人们不仅能更快地构建想法，而且能更快地将东西付诸实现。

“基本上，我们希望能加速机器学习研究和部署。”Dean说。这对社区来说是一份大礼，同时最理想的情况是，社区的人们也会进行回馈，将他们与其他研究者（以及谷歌）一起研发出的东西分享出来。“机器学习社区真的非常擅长改进想法，那真的非常好。不过，要对那些与研究性想法相关联的正在运行的代码进行改进，那就不太一样了。” Dean说。

他也提到TensorFlow将会帮到那些从从谷歌回到校园的实习生，因为现在他们可以进入这个曾经为谷歌所专有的系统并继续完成他们在谷歌期间尚未完成的工作了。

TensorFlow系统对个体研究者来说是一个十分完整的工具包。该系统是一个完整的独立运行库，拥有各种工具和Apache 2.0许可证，因此它也可以在商业环境下使用。人们既可以在台式电脑或笔记本上编辑它，也可以在移动端应用它（首先会发布安卓版，之后还会推出iOS版）。TensorFlow还会提供学习指南和文档，以供人们了解如何调整和玩转这个平台。

Manning建议，在移动设备上运行深度学习算法的能力将成为TensorFlow的一个重要特征，将它与其他开源系统区分开来。

对那些想要直接使用现有系统的人，谷歌提供了一个预编写二进制版本以便研究者可以直接使用它。它还拥有一个应用程序接口（API），以供软件开发者训练和控制他们的TensorFlow模型。它可不是什么冒牌货—— 谷歌App以及其他50多个产品都在使用它的系统。

谷歌在人工智能上下了一盘很大的棋

图片作者 John Chae

谷歌想让它的AI遍布四方。谷歌的机器学习和人工智能（谷歌更喜欢称之为机器智能）影响了它的许多著名产品。

谷歌AI实验室揭秘

谷歌正在向全世界开放这个平台，这让我们有机会能瞥见这家公司在发展机器学习系统方面是怎么想的。

在内部，谷歌过去三年都在建造一个大规模的人工智能平台，而现在谷歌把它向全世界开放。不过，谷歌自己更愿意称之为机器智能。他们感到，人工智能这个词带有太多的引申含义，而基本上他们想要做的只是在机器中实现真正的智能。

这是他们在公司中已经使用过许多年的模型：任何想要玩人工神经网络的工程师都可以创建自己的系统分支然后去摆弄它。这种开放结构允许公司内的100个团队创建强大的机器学习技术。

“机器学习是一种核心的、革新性的方式。我们靠它来重新思考我们做事情的方式。” 谷歌CEO Sundar Pichai 在公司2015年十月的电话会议上说。“我们正在有意地把它应用于我们所有的产品，无论是搜索、广告、YouTube还是Google Play。我们还处于早期阶段，但你将会看到我们在所有这些领域以系统性的方式运用机器学习。”

欢迎来到谷歌，这里一切皆 AI，AI 乃一切

很难为谷歌的机器智能研究画出一张详细的图，因为它总在改变，而且渗透到了公司中的几乎每个团队中。

谷歌的工程副总裁John Giannandrea把这称为一种“嵌入式模型”。我是在位于加州阳光明媚的山景城的谷歌总部的一座造型优美的现代建筑里见到他的。我当时身处一个严格来说不对公众开放的楼层里。在我独处的间歇里，一位工程师走过来发现我没有佩戴员工证。他问我是谁，我说我是一名撰稿人，但这并没有平息他的疑虑。谷歌以将其研究向公众开放为荣，但实验室中的工作仍是严格保密的。

对我来说，谷歌的嵌入式模型意味着我需要大量的步行来采访。谷歌总部包括三百五十万平方英尺的办公空间，横跨七英亩的土地。谷歌员工在办公楼之间骑车来往，还有许多员工在打理得很好的花园里抱着笔记本电脑，有的在解决复杂的计算机科学难题，有的在趁午后小憩的时间玩Minecraft游戏。不同的团队在不同的建筑中工作，而嵌入式机器智能的研究者们在团队间转换的时候，也需要在从一栋楼搬到另一栋楼。

在办公楼内部，我看到的东西和普通办公楼的样子差不多。里面有小隔间、电脑、显示器等等，人们正在以平静的语调讨论问题并紧张地朝我这个记者投来一撇。墙上有一些凹进去的空间，可以供人打盹——总之，就是这些办公室里常见的东西。

谷歌在人工智能上下了一盘很大的棋

图片作者：Dave Gershgorn/Popular Science

谷歌图片研究人员正在谷歌位于山景城的总部里研究机器智能问题，在一间看起来很平凡的办公室里。

在组织结构上，这里有一群研究者始终在研究一般性的机器智能问题，并将其工作反馈给谷歌的图片应用、语音搜索和网络搜索等核心产品。还有一些项目，谷歌启动它们是为了能推动相关问题的进步。Giannandra举了手写文字这个例子。

“我们，作为一个公司，希望能理解人们是怎么写字的。因此我们会长久地向它投入，即便我们并没有形成产品。”他说。

不过，由于谷歌有如此众多的产品，通常无论研究出了什么东西，总会有一款工具能把它用上。（谷歌的手写文字技术最终被用于谷歌的笔记软件 Google Keep。）

“谷歌总是在寻求更好的语音识别、语言翻译和语音理解。”

当确定了研究出的东西能用在哪里之后，研究人员就会到产品团队去协助产品的实现。产品团队研发各种我们都在使用的具体应用，例如图片 App 或谷歌翻译。

而负责一般性研究的团队们则按照研究兴趣来划分。有一个团队聚焦于教计算机学会“看”，另一个团队致力于理解语言，还有一个团队寻求更好的语音识别，等等。

“谷歌总是在寻求更好的语音识别、语言翻译和语音理解——所以，这些计算机科学的前沿研究领域是我们始终都会投入的。”

有超过1000个研究人员在谷歌为这些机器智能应用而工作，并在应用性研究和理论性研究之间不断切换。有些研究人员在处理一些更简单的问题，这些问题不需要考虑严格意义上的人工智能，而主要是依靠统计性预测方法。

根据谷歌发言人Jason Freidenfelds的说法，谷歌那刚刚诞生的母公司Alphabet并不会对谷歌的机器智能研究的进展方式产生太大的影响。这些研究人员仍将在作为子公司的Google中工作，但当他们需要与Life Sciences或 Google X等其他子公司在机器学习应用方面合作时，也不会有任何障碍。

未来之声

谷歌的众多工具中的一颗冉冉升起的明星是语音搜索。哪怕你还不知道它到底是什么，你也很可能已经使用过它了：它是谷歌搜索条中的那个小小的麦克风图标，当你按动它后，你就可以通过说话而非打字来进行搜索。这个小麦克风图标也出现在iPhone和安卓的谷歌搜索App中。在许多智能手机的安卓搜索条中也能发现它。

尽管从表面上看它只是Siri的一个竞争产品，谷歌语音搜索实际上已成为通向谷歌那巨大的知识库的第二扇大门。令语言识别团队感到高兴的是，它正在变得越来越受欢迎。

尽管谷歌并未公布语音搜索相比于文字搜索的份额，它仍然提供了一些统计证据：移动搜索如今比桌面搜索更受欢迎，移动语音搜索去年增长了一倍，大约50%的美国手机和平板用户知道他们可以用语音向谷歌提问，其中三分之一的人曾用语音向谷歌提问过。

尽管谷歌不会公布语音搜索到底有多大的使用量，它的新闻发言团队仍然通过上面这一串数据让我确信，语音搜索的使用量极大。

除了每年进行数百次迭代之外，谷歌搜索这些年大致上仍以原先的方式运行着。不过，要让人们足够有信心来对着手机讲话，这需要艰苦的拼搏。高级研究员Francoise Beaufays研发谷歌语音搜索背后的语音识别引擎。他说，用户之所以越来越多，是因为语音搜索服务的质量提高了。

“当我们刚开始做语音识别时，用户并不是完全有信心。他们也会用它，但你会发现有一个延迟，那时候技术还不像现在这么好。“Beaufays说。“现在速度变快了，人们可以方便地在办公室用语音来做任何事情了。”Beaufays带着法语口音，说话很快，而当她谈到神经网络构架的市场，语速就更流畅了。她领导语音团队抛弃了陈旧的、曾用来识别声音的引擎，并用一种新的、更高级的使用递归神经网络的系统来取代它。

为了让机器理解语音，它需要首先学会词和词组的发音是怎样。这意味着，需要大量的音频文件。这些文件通过算法来处理，该算法会产生一个巨大的图，图中包含每个声音与其他声音、词和词组之间的对应关系。当一段音频被呈现给电脑时，它会这样进行分析：把这段音频的波形放入图中移动，试图从图中找到一条能最好地解释这段音频的路径。

“在这条路径的终点将会产生这样的结果：‘ 我们检查了这个声音序列，这个声音序列对应于这个词的序列，而这个词的序列则构成了这个句子。”Beaufays说。

你每次进行语音搜索时，音频都会被上传到谷歌服务器

这一切都要靠那些最初的音频文件，这些文件被称为训练数据。这些训练数据实际上是从真实谷歌用户的数百万条语音搜索中得来。每当你进行语音搜索时，音频都会被上传到谷歌服务器，如果如果你选择允许谷歌使用这音频，它就会被谷歌整合到用来训练机器的音频库中去。

不过，数据在使用之前还有经历若干步骤。首先（而且对用户来说最重要的是），所有的用户信息都被擦除。这意味着，时间戳、位置数据和用户资料等东西都会被擦除。接着这些原始波形被发送给一位人类速记员，因为算法需要每一段音频都附有可靠的文字转写。所有的音频都需要这种元数据，而一段“坏”的音频实际上就是一段未能恰当转写的音频。有时候，研究者甚至会为音频添加人工噪音，以便让机器能理解不同的词在不同环境中听起来是什么样。

Beaufays强调，用户可以选择是否参与该项目。这很重要，因为随着谷歌持续地积累越来越多的关于世界和关于我们生活的信息，对隐私的合理关切正在日益增长。不过如果你不想让谷歌使用你的语音，你可以拒绝它使用。而且，在使用语音搜索之后，也可以通过若干方式来删除搜索记录。

这些技术使得语音搜索变得更高效。根据谷歌的说法，两年前语音搜索错误率是25%，这意味着每四个搜索中就有一个返回了错误结果。现在，错误率只有8%。

然而，如果谷歌不能利用用户的数据来训练它的话，会是什么样？

聪明的Inbox

上周，谷歌宣布它将在电邮服务中使用人工智能（如果你使用Inbox App这个独立于Gmail的邮箱服务的话）。据Gmail的产品总监Alex Gawley说，这也是基于TensorFlow而建立的。

“我们开始看到了我们研究团队建立的神经网络的强大力量。” Gawley说。“有可能，我们除了理解和组织之外还能协助做更多的事，也有可能，我们能在写作邮件之类的事情上帮上忙。”

Inbox的这一功能被称为“智能回复”，它本质上是一个递归神经网络，能够阅读你的邮件并将它传递给另一个网络，后者能产生出三个可能的回复。你从中选择一个，然后发送邮件。不过，在隐私方面邮件至少像图片一样敏感，如果不是比图片更敏感的话。

要记住，谷歌没有任何人人会读到你的邮件。不过，关于“你做了什么选择”的数据将被传送回去，用于训练整个模型。智能回复系统正是靠这来学习的。利用这些数据，研究者可以让机器回答某些问题，并发现神经网络中有哪些需要修改的地方。每个人都可以使用这个软件，这样，这个智能回复服务便让我们能够窥见谷歌的机器学习产品是如何建造的。Inbox团队内部都在利用这个功能特征来测试机器、告诉机器何为正确何为错误，这个过程被称为“喂狗粮”（dogfooding，这个词组的原义是，吃自家狗的狗粮。从这个词组能看出，这些技术咖有多怪异。）

整个团队都在使用它，记录错误，并用越来越多的数据来喂养它。当这个App在受控环境中能正确地运转，并能被规模化时，团队就会发布这个产品。

一个拥有机器智能的智能手机的终极目标是：它将成为一个真正的数字个人助理，能进行准确的预测，知识渊博——它将成为你的大脑的一部分，尽管不是天生的部分。

内部测试使得研究者们有机会来预测当神经网络面临大规模数据时可能出现的错误。例如，刚开始时，智能回复服务倾向于对每个人说“我爱你”。而这是因为，在私人邮件里，“我爱你”是一个非常常见的词组，所以机器会认为它很重要。

所有这些都是为了让你的工作更容易些——那也正是该公司大部分产品的目标。 Google Now这个谷歌世界里的个人助理服务，尤其如此。该团队的口号是“让对的信息在对的时间出现”，Google Now的负责人， AparnaChennapragada说，当把机器智能建造到这个平台中去时，需要进行缜密的考量，以便为人的大脑提供协助。

“你需要挑选出那些对人类很难，但对机器很容易的问题，而不是反着来。”Chennapragada说。“我们要让技术来为你搬举重物，这样你就不需要自己来搬举重物了。”

此刻，这个产品正在探索如何用这些方法来让你的生活变得更轻松容易。 Chennapragada把这和五年前的语音识别研究相类比——Google Now已经做都不错了，但还不能每次都做对。

他们正在探索，如何运用三种不同类型的数据形成有趣的信息来为你服务。他们认为，智能电话是一种“局部注意装置”，而一个理想的装置不应该让你信息过载。

“ 如果你看看我们每个人是如何使用手机的，你会发现我们是在生活中各种事情的间歇里使用它。使用它时，你在寻找的是一些点点滴滴的信息。”Chennapragada说。“我们在思考的一件事是，我们怎样才能以一种积极的方式代表你行动，随时随地的。”

这便是一个拥有机器智能的智能手机的终极目标：它将成为一个真正的数字个人助理，能进行准确的预测，知识渊博——它将成为你的大脑的一部分，尽管不是天生的部分。

为了实现这一点，你的手机需要关于你的数据：你的时间表，你在搜寻什么，你听什么音乐，以及你要去哪里。这些是最容易获取的信息，因为它们已经存在于你的手机上了。

“我们在思考的一件事是，我们怎样才能以一种积极的方式代表你行动，随时随地的。”

当你把个人信息、通过谷歌知识图谱（这个随后再讲）得到的关于世界的信息和来自其他用户的信息联合起来时，世界将来到你的指尖。或许你不知道如何开车去机场，但你的手机知道。

关于谷歌利用众人信息的方式的另一个例子是测量道路交通情况。通过从高速公路上的手机中提取匿名位置数据，谷歌可以辨认出汽车们比平时开得慢。同理，也能辨认一家饭馆或是咖啡馆拥挤不拥挤。

Google Now 代表了谷歌使用人工智能的方式。他们意识到，那种能转化图片并告诉你图片里有什么的一般性智能模型离我们还有好些年的距离。所以现在，他们在创造由一个个工具组成的联合体，这些工具能协调一致地为用户提供最好的体验。

组织全世界的信息

好了，上文我提到Google Now借助知识图谱来工作。什么是知识图谱呢？

前谷歌研究院负责人John Giannandrea是2010年加入谷歌的。他曾建立了一家名叫Metaweb的公司，该公司能把互联网上的文本和对象联接起来。它是一种与搜索服务相平行的逻辑服务——通过它不仅能搜索到想找的东西，而且能搜索到与之类似的东西和信息。很久之前，当他还是网景公司的首席技术官的时候，他就在做这件事了。（你还记得网景公司吗？）

这一切都体现在知识图谱中。知识图谱于2012年首次亮相。当你搜索某个事实时，它就会以相关信息和文字的方式弹出来。如果你搜索《大众科学》杂志何时建立，谷歌就会告诉你答案（“1872”）。

这就是谷歌的做法：不仅要为互联网编制目录索引，而且要让互联网变得对用户来说更好用、更有用。这也是人工智能第一次闯入谷歌的主要业务——搜索。从那时起，谷歌把它15%的日常搜索业务都交给了一个名叫 RankBrain的人工智能模型。这个系统实现的是常识意义上的搜索——它要处理那些传统算法无法搞定的查询。

除了把它整合进谷歌的核心搜索算法并把它扩展到产品中之外，谷歌还打算做一些登月级的神奇工作。在这方面，他们的靠山是Geoff Hinton。

Hinton是人工智能界最杰出的思想家之一——人们经常把他的名字与Facebook的YannLeCun，谷歌的Andrew Ng（注：已转到百度）以及YoshuaBengio等人相提并论。（实际上，LeCun,Hinton和Bengio 还在五月份的《自然》杂志上写了一篇深度学习综述，这篇综述读起来像一篇人工智能的教材。）

“在魔术和神秘之间有一条很细的线，我们希望让自己处于正确的一边。”

与Hinton对话，就像在于一个生活在未来五年之后的人对话。我们的对话围绕着怎样将文档变成思维向量，以便机器能理解和记住冗长的数据，并能通过逆向工程获得我们大脑用于学习的算法。

例如，现在的许多计算机程序在分析文本的意义时，是通过查询文档中的单词的词典定义和语法这样的蛮力。然而，要想像人一样去理解文档，理想情况下计算机就需要能够将文档分解为一系列不同的思想。”

谷歌将会乐于能够记录，并找到其中的原理是什么，文档里说了什么，一种想法是怎么从前面的想法中流过来的”，Hinton说，“如果我们可以开始做到这些，那么机器能给你更好的答案，因为他真正地读了文件并理解了。”

当问及为什么这一点还没有实现时，Hinton说，如果我们想要让机器与大脑的理解力相匹配，问题在规模方面。研究者现在使用的人工神经网络不具有我们大脑的复杂性，哪怕把规模扩大到目前的极限也达不到。最好的系统或许拥有数亿个需要操作的权重（在讲述如何操作权重时，LeCun把它们类比为一个外表面上有一百万个旋钮的黑盒子。）然而，我们的大脑有上百万亿个需要操作的权重——这意味着大脑要处理的信息要高上十万倍。

尽管被规模问题所阻挠，Hinton仍然很乐观，认为人工智能研究的这一特征并不会像过去一样使它夭折。（人工智能曾经历过“凛冬”，那时进展总是无法满足预期，投资也退缩了。）这种乐观的一个主要原因是，前面提到的思维向量的观念正在变得日益流行。不过，在Hinton看来，最让他感到安慰的是过去五年来的进展，特别是在对象识别和语音领域。过去这些问题常常被认为是太复杂了，而现在，它们在标准化测试中的错误率已戏剧性地下降。

“它们的表现正在接近人类水平。”

“它们的表现正在接近人类。不是在所有方面，而是在像对象识别这样的方面。几年前，做计算机视觉的人还会告诉你，‘不，很多年之内计算机都达不到那样的水平。’ 所以，我们有理由保持乐观。”Hinton说。

不过，无论机器能多么好地补充或模拟人脑，如果普通人不明白该怎么使用它，它就毫无意义。所以谷歌才会打算以这种方式来统领人工智能——让它在使用者面前尽可能地简单。幕布背后的计算过程是复杂而动态的，而它所输出的结果却是人人都能用的工具以及可供改善这些工具的手段。如果你想的话，可以用这些手段来改善这些工具。

“在魔术和神秘之间有一条很细的线，我们希望让自己处于正确的一边。”Google Now的Chennapragada说。

【编者注】本文原刊于2015年年底。2016年，谷歌在人工智能领域大步进展，回溯去年谷歌在该领域的大动作，可以窥见一个人工智能帝国正在慢慢成型。