雷锋网按:在谷歌 I/O 2017 的最后一日,主场馆海岸线圆形剧场迎来了本届 I/O 最具重量级的机器学习讲座:由四位分属不同领域的 AI 女性大牛展开巅峰对话,漫谈 AI 的过去、现在与将来。四位嘉宾分别是语音识别、计算机视觉、数据可视化和生物计算领域的顶级 AI 学者与工程师。而本场对话无关技术,纯是几位杰出科学家对各自领域深度学习发展历程的反思,以及对将来趋势的思考。
四位嘉宾是:
Francoise Beaufays,谷歌语音识别技术研发带头人
李飞飞,谷歌云首席科学家,斯坦福 AI 实验室负责人
Fernanda Viegas,计算式设计(computational design)专家,谷歌 Big Picture 数据可视化部门负责人之一
Daphne Kolller,Calico Labs 首席计算官,Coursera 联合创始人
本讲座由谷歌云副总裁 Diane Greene 主持(以下称”主持人“),分为三个环节,每个环节的话题分别对应 AI 的过去、现在与将来。
Daphne Kolller:我认为,深度学习革命让我们得以解决当今各领域的许多现实难题,它让这一切成为可能。
这场革命,是一系列机器学习研究进展的结果——深度学习来临之前,大约有 10 到 15 年相当艰辛的研究,用于研发人工设计的模型。构建这些模型需要大量其它领域的专业知识,以及深入细致的思虑考量。研究人员需要人工雕琢模型的大量细节,由于缺乏数据,往往要用我们的直觉判断作为构建模型的依据。
而当我们得到更多数据,尤其在文字、图像、语音领域,就逐渐开始用数据来替代这些主观洞察力。但是,过去这 10 到 15 年间的技术研究成果,在今天仍然很有价值。这里有两个方面:
在研究方法上,优化算法便是那时发明出来的,是深度学习得以成功的关键技术之一。
另一方面,如今我们一厢情愿得相信,大数据是解决一切的方案。但这仅仅对应部分领域。对其它领域而言,我们掌握的数据量充其量不过是中等,有的甚至可说是小规模。因而,仍需要在人类直觉和数据之间做平衡,充分利用两者的长处。
李飞飞:我来稍微谈一谈历史背景。在所有人类的科学领域里,AI 是一门相当年轻的学科,大约有 60 岁。但在我的观点里,AI 启蒙思想的根源,即对于智能的求索,可追溯到人类文明诞生的黎明时期。
大约 60 年前,机器刚刚能处理简单的算术。但以计算机科学之父阿兰-图灵为代表的思想家,已开始提出挑战人类社会的问题:“机器是否能思考?机器是否能拥有智能?那时,马文·明斯基、John McCarthy 等计算机先驱聚到一起,创立了如今的人工智能学科。AI 之父们眼中的 AI,在技术上讲,与今天十分不同。但核心的愿望是一致的:让机器能学习、思考、感知、有逻辑,能开口说话,与我们交流。
AI 已经经历了几波技术发展:从一阶逻辑(first-order logic),到专家系统(expert systems),然后是早期机器学习,再到如今的深度学习革命。
过去的 60 年,我把它称为”in-vitro AI“,或者“AI in vitro”(雷锋网注:可理解为“试管阶段的 AI”)。这一阶段为 AI 研究的基础问题以及众多子学科打下了基石。后者包括机器人、计算机视觉、自然语言处理、语音处理、生物保护学(conbio)等等。这同样是一个研究人员们不断理解数据、寻找工具集的过程。
而 2010 年左右是一个分水岭。这时,三个不同领域的进步终于达到了一个前所未有的里程碑高度:统计机器学习领域工具的成熟、互联网和传感器带来的大数据、摩尔定律预测的硬件计算性能提升。这三者的合力,把 AI 从 “in vitro”阶段,推上了一个被我称为 “in vivo” (雷锋网注:可理解为“胚胎阶段的 AI”)的全新阶段。
“AI in vivo”,是一个 AI 技术向世界做出实际贡献的阶段。当下这个时间点,还仅仅只是个开头——“It‘s just the begining”。我们在谷歌云所观察到的每一个行业,都在数据、AI、机器学习的推动下经历着革命性的转变。在我眼里,这是一个历史性的时刻:AI 终于开始发挥现实影响力,改造无数个行业。
我想要再强调一遍:一切刚刚开始。现在 AI 领域的工具和革命性技术,仅仅是广袤海洋中的几滴水。剩下的可探索空间,即我们能借助 AI 实现的事情,几乎是无限的,再怎么夸大也不为过。对此,如果你感到兴奋激动,或许是应该的——有许多工作等着我们去做,来实现 “AI in vivo”。
主持人:Francoise,你处在语音识别研究的最前沿。当下,语音识别技术已经普及开来,能否向我们介绍下这一发展历程?
Francoise Beaufays:当然。12 年前我加入谷歌,那时,我们都想用语音识别技术做点有用、好玩的事。但这相当得难——当时语音的质量完全不能和现在比。因此,我们从极其有限的产品着手,这样识别一个人说的话并不过于复杂,然后一点一点地突破极限。我们需要做的,是打造一个成功的产品,让用户愿意使用;然后以此为基础,不断收集新数据导入模型、不断迭代,每次提高一点点。
按照该思路,我们开发了 GOOG-411,我不知道有多少人还记得它。它是一个手机 APP:你拨打一个号码,它会问你:查询哪个城市或州?回答之后,它接着问:“查询哪家公司?”说出名字之后,它会拨通该公司的电话。请注意,12 年前,没有 iPhone 也没有安卓,大家用的还是功能机。所以 GOOG-411 的功能也很基础。幸运的是,谷歌高层对该技术的前景抱有憧憬,支持我们尽可能得打破技术极限。
当时我们很成功。然后 iOS 和安卓诞生,一切都变了——用户有了视觉反馈。于是我们开始构想其他的 APP 产品,那便是 Voice Searchv用语音进行谷歌搜索。我们开始做语音转录,把麦克风整合进手机功能的各个入口,让用户可以用语音做任何事。
更后来,我们试图把语音识别技术带到家庭场景,比如 Google Home 这样的设备。用语音来处理日常任务,是一个呼声很高的诉求。我们认为智能助手是一个很好的入口。相比用口头命令做简单的事,智能助手可以用日常的自然语言与用户问答,而不是麻烦的键盘打字输入,使谷歌真正成为用户的个人助手。
主持人:Fernanda,你曾表示要让数据可视化民主化。如何才能实现?必要性在哪里?数据可视化分析又是如何进化的?
Fernanda Viegas:十多年前,我已经在从事数据可视化。当时的情况很不一样:研究非常困难,设备和现在不能比,能获得的数据也很少,大多数并不公开。
这情况逐渐改善,现在,数据可视化已可说是无处不在。比如,媒体也喜欢在数据可视化的帮助下,用统计数字表达复杂的新闻事件。我们喜欢的一个玩笑是:“对于统计,数据可视化是一道毒品”——你可能都不会意识到自己在做统计,因为数据可视化是如此善于在视觉上找规律、找异常。
数据可视化一直在一条更加民主化的轨道上。长久以来,AI、机器学习有一项重大挑战:如何让我们人类理解超高维数据。这方面,Geoffrey Hinton 和同事们搞出的 t-SNE,堪称是 AI 领域的革命性数据可视化工具。它在数据可视化发展史上是一项相当关键的里程碑。我和飞飞有类似的感觉:我们正处于如何利用数据可视化技术推动 AI 进步的起点。
Francoise Beaufays:语音识别从来都是基于机器学习,与更早期无关机器学习的技术没什么关系。过去三十年间,机器学习技术一直在进化,语音识别也不断进步,其中一个大转折点是神经网络的采用。这距今不到八年,但基于神经网络的语音识别研究在很久以前就已开始。只是由于计算能力的限制,这条路在产生大量成果之后被学界放弃,直到几年前重新采用。这期间,语音识别基于更基础的技术,仍然在发展提升,例如 Gaussian 混合模型。
在技术上,采用深度学习确是一项较艰巨的工作,牵扯到延迟、规模、训练能力等问题。当基于深度学习的语音识别技术在生产环境部署,这打开了一扇崭新的大门,背后是一系列的提升。另外,由于有了强大的计算硬件支持,我们能快速地从一个神经网络架构转换到另一个。因此,我们开始探索 RNN(比如 LSTM)、CNN、基于 CTC 的序列建模等其他模型。简而言之,采用神经网络,为我们开启了在支撑谷歌产品的核心技术上不断创新的新空间。
主持人:这是用于语音识别的神经网路,我们再来听听能延长寿命、让我们更健康的神经网络。Daphne,给我们讲讲为什么 Calico Labs 需要你这位世界最顶级的分子生物学与机器学习专家之一,你在那做什么?
Daphne Kolller:很多人可能没听说过 Calico,我们的曝光很少。做个简介,Calico 是最早剥离谷歌,直接归属 Alphabet 的子公司。Calico 的目标是理解衰老,帮助人们活得更长、更健康。
衰老其实是我们所面临的最大的死亡风险,没有之一。这对几乎所有 40 岁之前发生的疾病都成立:当患者一年一年老去,死于该病的风险会指数级得增长,糖尿病、心脑血管疾病、癌症均是如此。
但讽刺的是,没人真正知道为什么。
没人知道为什么在 40 岁之后,每一年过去,都会给我们增加死于这些疾病的风险。为了对此进行理解,我们很有必要研究导致衰老的生物系统机制,从分子层面一直到系统层面。虽然我不认为我们能永生,但也许通过技术手段介入,我们能活得更久更健康。
Calico 早期有一名研究人员,其研究显示:仅仅某单个基因的变异,就能延长机体 30%-50% 的寿命。而且,我们不仅会活得更长,还会以更年轻的面貌、更饱满的健康状态生活。
但实现这些需要搞清楚许多尚不明了的东西,还需要收集所有生物系统在所有年龄状态下的海量数据,包括酵母、虫子、苍蝇、老鼠、人——为什么这些不同物种在分子层面发生着同样的事?
幸运的是,过去二十年间,科学家们发明出一整套衡量机制与方法,收集数据并试着帮我们理解衰老中的机体。这包括基因测序技术、微流体、跟踪设备,记录机体如何随衰老发生变化。但是,没人能把这些不同测量机制所产生的、从微分子层面一直到人口学层面的数据整合到一起。
如何整合所有信息,精确描绘出人体如何衰老的过程?
这就需要生物学家和机器学习专家之间的合作,后者能建立模型,整合所有信息。
我属于少数极幸运的人,能在该领域的萌芽时期就投身进来:在 2000s 年早些时候开始从事计算生物学(computational biology)。如果说,我的机器学习算是母语造诣,我的生物学就在“流利”水平。这使我能够与 Calico 的科学家们共事,在两门学科之间建立真正的合作纽带,开发能结合两个世界的优点——大数据和人类直觉的模型。
由于生物机体的复杂度实在太高,即便是今天这个量级的数据,我也不认为仅用数据就能重建生物体从头到尾的完整模型。正如我在讲座的开头所讲:数据,和顶级科学家的直觉,我们都需要;用以最终建立对衰老的深度理解,并预测有效的干预方式。
主持人:下面聊聊计算机视觉(CV)。飞飞,有次在 TechCrunch,你说 CV 是 AI 的杀手级应用,你想表达什么?你一直提倡的 AI 民主化又是什么意思?这跟云计算有什么联系?
李飞飞:我当时是想推动更多人认识到这一点。我坚信这一点。当时的原话是:“很多人问 CV 的杀手级应用是什么?我会说:CV 本身就是杀手级应用,AI 的杀手应用。”
我会这么说,有两个理由:
五亿四千万年前,生物进化史上发生了浓墨重彩的一笔:由于某些不知名的原因,地球上的物种种类从极少,一下子爆发为极多。这被看作是进化史上的宇宙大爆炸——被称为寒武纪大爆发。对其背后的原因,生物学家迷惑了许多年。直到最近,一个非常有说服力的理论浮出水面。这个猜想是:那时,生物进化出了眼睛。一下子,动物的生存变得主动:有了猎食者,有了被猎食者,整个物种进化轨迹从此天翻地覆。
今天,人类是最智能的视觉动物。大自然把我们脑容量的一半都分配给了视觉图像处理,正是由于其重要性。
至于第二个理由,据估计,互联网上超过 80% 的内容,为视觉内容。另外,传感器收集的第一大数据形式,是由可见光或不可见光组成的图像数据。无论在哪里,对于公司、消费者来说,以像素形式出现的数据都是最珍贵的。
和语音识别类似,有了深度神经网络之后,CV 实现了多项突破和长足进步。在我看来,从 2010 到 2017 的七年间,CV 最主要的进步发生在基础的感知任务领域(perception task):物体识别、图像标注、物体检测等。我们也已经有了应用产品——谷歌照片(Google Photos)、自动驾驶汽车的行人检测系统等。
我认为,下一波对 CV 的投资,将集中于 “Vision+X”,即 CV 和其他领域的结合应用。比如说,视觉在沟通、语言中是如此重要,CV 和语言的结合,会非常有意思。医疗、生物领域的视觉应用更不必说。机器人是另一个有无限潜力的 CV 应用领域。人类研究机器人的历史几乎和 AI 一样久,但现在,机器人仍处在一个非常原始的阶段。究其原因,这在很大程度上是由于其原始的感知系统(想想寒武纪大爆炸)。
简而言之,我的确认为视觉是机器智能最重要的构成要素之一。
主持人:我们时间不多了,Fernanda,能否讲讲你眼中数据可视化的未来在哪里?
Fernanda Viegas:当然。顺着刚才飞飞的思路,既然人类有这么复杂的视觉系统,我们不妨用它来理解机器做的事。机器学习运行于海量的数据、统计数字、概率,在某种意义上,可视化是帮助我们理解这些东西的秘密武器。
为什么我们应该重视数据可视化?这有三点:
可解释性。你是否能解释模型输出的东西?
漏洞可修补性。更好地理解模型,能帮助你修补漏洞。
教育。可视化在机器学习教学中扮演了重要角色。另外,如果我们利用可视化更好地理解了机器学习系统,我们能否从这些系统中学习,提升职业水平?
最后,我想讲一个有意思的例子,我们用数据可视化发现了机器学习系统中原本并不知道的东西。前段时间,谷歌实现了 zero-shot 翻译,即谷歌翻译能处理未遇到过的语言组。研究人员对此产生了一个疑问:该系统的多语种数据空间是按照何种规律分布的?比如说,数据是按语种划分?还是,系统把不同语种混到一起,“学到”了一些语法、语义的规律?
于是,我们开发了一个数据可视化工具来进行查看。结果发现,不同语种但相同语义的句子,组成同一个簇。不同句子形成一个个不同的簇,而无分语种。某种程度上,这可以说是世界通用语言的雏形,我们把这成为“interlingual”,即“跨语言的”。另外,我们发现,哪些相对更隔离的簇,都是翻译质量不高的语句。这告诉了我们,数据空间的几何分布是有涵义的。
目前为止,AI 仍让人感觉到强烈的工程导向属性。我很期待在将来,艺术家、UI 设计师、科学家会为 AI 带来什么,有哪些我们全未想到过的可能性?这些会很值得探索。
主持人:Francoise,我想问你数据可视化会如何帮助语音识别(笑)。但我同样想问你:如今数据越来越复杂,比如训练模型的标记数据,还有越来越多的个性化,语音识别技术在走向何方?又有哪些令人兴奋激动的挑战?
Francoise Beaufays:在语音识别领域,每当遭遇一个新难题,我们必须要专注在它上面。我们开发 Youtube 儿童频道的时候,就必须要专注于孩子的声音——他们的说话方式、音域、断句方式都和成年人不一样。最终,我们找到了把学习成果加入通用模型的方法。因而 Google Home 现在能与儿童正常交互。
对于我们而言,Google Home 又是一个新环境,我们需要收集新数据。有了新数据之后,将其导入模型进行训练就变得简单直接。但是,第一次发布 Google Home 的时候,并没有用户数据。因此,我们做了许多模拟:采集数据,添加不同类型的噪音,在数据上做不同类型的混响(reverberation)。事实上,我们用的数据足以称得上是海量。我们转录了数万小时的语音,然后与模拟叠加增殖,最后导入模型的数据,相当于是数个世纪的语音。
世界上有如此之多的语言,语言学家说,光是使用人数在 10 万人以上的,就有 1342 种。我们如何向如此之多的语种服务?这是一个需要在机器学习领域发挥很多创造性的难题。
李飞飞:我相信 AI 是第四次工业革命的驱动力量之一。我从一个哲学家那里听来的、一句我最喜欢的话是这样的:“独立的机器价值观并不存在,人类价值观就是机器价值观”。我很期待 在将来,来自各门学科的技术专家在 AI 领域发挥所长,只有这样,才能真正为全人类开发 AI,而不是为一部分人而研发。
Daphne:作为一名顶级机器学习专家,如果在五年前,有人问我五年后机器是否能像人类一样准确用文字注解图像,我会说不可能,二十年后还差不多。但由于飞飞等科学家的努力,这一天比我预想的早很多就到来了。
我离开 Coursera 重回生物领域的原因,是因为我认为生物技术现在已经到了指数级增长曲线的那个拐点。如果我们看看人类基因测序的历史趋势,其指数每七个月就翻倍,增长速度是摩尔定律的两倍。按照该趋势预测 2025 年的接受了基因测序的人口数量,保守估计是 1 亿,正常估计是 20 亿。而这只是测序,还没有包含 RNA、蛋白质组、人体成像、细胞成像等等。
人体,是人类迄今所遇见的最复杂系统。我认为,我们正处于理解这一系统的开端——到底是什么让我们活着?什么让我们迈向死亡?我认为,有今天这一量级的数据以及不断进步的机器学习技术,我们完全有机会用 AI 革新科学。