受湾区同学技术沙龙(www.tech-meetup.com)邀请,这周六百度研究院副院长余凯在Santa Clara的Intel总部礼堂做了一场很干货的分享。我觉得“干货”的原因不仅仅是余凯对诸如“百度为什么要做各种智能硬件?”和“百度的自动驾驶和Google有何不同?”等问题进行了回答,而是因为通过这次分享,我们可以看到百度在包括基于大数据的深度学习等一些前沿研究领域的成果,以及在“万物互联”的大数据时代,百度在机器人、无人驾驶等方面的一些思考,也让我们这些互联网从业者对于未来大数据和人工智能的演化有一个更好的了解。
虽然观众几乎坐满了会场,但我估计最多也就有两百来号人分享到了这些东西。所以我对余凯的演讲进行了一些整理,供雷锋网的读者了解和学习。
以下内容根据演讲整理:
感谢郭晓峰、朱平还有好多朋友在周末来组织这么一个活动。对我来讲回到这个地方和大家交流有一种回家的感觉,因为我是三年前的时候从湾区回国加入百度,开始负责百度的人工智能和深度学习方面的研究。很亲切。回顾这个历史也是满有趣的,当时我在NEC Lab,有好多深度学习方面的工作,今天像Facebook等有很多人在从事深度学习,好多都是从NEC Lab加入的。从湾区回到中国也确实把湾区的一些资源给介绍回去了,像以前我一个很好的朋友Andrew Ng,我也把他忽悠到了百度。
这反映什么呢?以前这些比较前沿的技术研发事情很多是在硅谷在美国去发生,在今天在北京或者深圳其实很多同样事情也在发生,所以我觉得是一个创新的时代。
今天我的题目叫《从大数据到人工智能》。在过去的几年时间里,百度比较有特色的一点就是作为一个私营企业在技术研发这个领域做了很多工作,对我们来讲是一个很鼓舞的事情。
我想即使在Google的朋友也会同意这个观点:搜索引擎本身也是一个人工智能的系统,一方面通过免费的服务提供很多数据,另一方面把这些数据区变现,这中间就要用到很多技术,这当中最重要的就是基于大数据的人工智能,比如说数据挖掘、机器学习、自然语言理解在移动时代或者IOT时代,语音识别语音理解图像识别等很多人工智能技术在中间可以扮演非常重要的角色。
什么是人工智能
那什么是人工智能呢?有很多不同的看法,有强人工智能,有弱人工智能,我们也看到很多电影和小说等,但到今天没有一个公认的统一的定义,但我们讲一个人工智能有几个方面:
第一个是感知。就是采集数据;
第二个是理解。对环境、对对话的对象有一些理解;
第三个是决策。这些数据你要做大量的分析,知道环境是什么样的,基于这上面你会做大量的决策,本身来讲感知、理解、决策这三步也是一个循环的过程。
我们今天看到各种各样所谓的智能产品,那这些产品是否真的具有智能呢?其实一个很本质的差别,也是互联网服务和其他产品不一样的地方,就是这个服务和产品是否能够随着经验不断演化,随着用户使用越来越多对用户越来越了解,这种随着经验演化也就是学习的能力实际上是评估一件产品是否真正具有智能的因素。整个移动互联网,通过手机也好,通过App也好,他对用户是在不断的去了解,去知道用户的需求和喜好。
我们知道在机器学习研究的课程里,有一个词叫经验数据,经验就是数据,数据就是经验。我们今天讲这是一个大数据的时代,大数据时代的意义在什么地方呢?就是能让一个系统有机会变得越来越智能。因为智能本身一个特点就是学习的能力。
万物互联与大数据
大数据的时代从PC互联网到移动互联网有一个飞跃的变化,像这个图是05年教皇选举的场景,8年以后你可以看到,同样的地方,同样一波人,移动互联网对人们的改变是巨大的。每一个人随着这个设备,无论是在打电话,拍照,带在身上,你以为你没有在用它,但手机上面的传感器会把很多数据传到云端。数据的产生是无时不刻的。
未来我们会进入一个物联网的时代或者机器人的时代,那万物互联的时代是一个什么样的场景呢?我们可以想象到2020年,前段时间孙正义在乌镇互联网大会上说,到2020年一个人可能会连接到上千个设备。今天在中国我们每个人可能都带着两三个手机,因为一个人在生活中会扮演很多角色(观众笑)。加上穿戴式设备和其他连接,在中国平均一个人带三四个设备是很正常的。面向未来的话可能一个纽扣都会是一个设备,所以说每个人连接一千个设备并不是那么耸人听闻。
这么多连接带来的结果就是数据的暴增。大数据的时代实际上由万物互联导致,但数据也给我们的服务和产品一个学习的机会。从学术研究的角度讲,人工智能在过去五六十年里起起伏伏,但真正大规模的应用是从互联网也就是2000年开始的,从2000年-2009年,我把这个时代叫做“润物细无声”,因为在互联网时代,无论是搜索还是广告都有大量的人工智能技术,但这些技术主要是一些后台的技术,不一定那么容易被感知。
我们当前所处的时代,从2010年到2019年我用一个词叫“于无声处听惊雷”,互联网行业很多朋友确实都感到这种轰隆隆的雷声。大数据的产生、计算能力、带宽、深度学习这种技术的发展使得AI开始从后台走到前台,比如说语音识别,我记得三年前我组建百度语音识别的团队,我们当时发现招不到人,我觉得很奇怪,我记得我读大学的时候不是有很多人在从事语音识别的研究吗?后来我一打听,他们全部转行了。因为在深度学习之前的时代,语音识别看不到希望,大家觉得没法继续做研究,但今天语音识别已经是触手可达,而且发展非常快。包括图像,包括自然语言的理解,包括机器人的技术都是如此。
从大数据到深度学习的人工智能
人工智能技术最近为什么这么受到重视?我觉得最重要的原因是大数据,第二个原因是计算能力,第三个原因就是深度学习。最顶尖的互联网公司在这个领域都有相当投入,百度在深度学习领域可以说是投资最大的公司之一。
为什么深度学习受到重视?首先第一点就是深度学习技术有一个浪漫主义的方面,就是深度学习从机制、行为等方面和大脑有一些关联性。这点在媒体强调得比较多,但从我们的角度来讲这反而是最不重要的原因。
第二点是深度学习特别适合大数据。一开始深度学习有受到生物神经系统的启发,但随后的进展主要是因为统计、建模、大数据和功能实现。
然后第三点它带来的是一个思维观念也就是解决问题方式的改变。过去我们一般先对数据做一些预处理,然后通过机器建模的方法去处理数据,但深度学习带来的一个改变,就是端到端的学习,希望把原始数据放到系统里,中间每个步骤都是用学习的方法去完成。比如说语音识别,它分为好几个步骤,但这几个步骤是不是去一致性的优化?不一定。但深度学习的目标是去一致性的优化最终的目标的。
第四点,也是一个纠正,就是很多人觉得深度学习是一个黑箱系统,觉得你不需要太多的了解,只要去用它就好了。实际上深度学习和机器学习一样,提供的是一套框架,一套语言系统。什么叫语言系统?比如中文就是一套语言系统,你要写出优美的文章至少需要两个条件,第一是你要掌握这种语言,第二是你对生活的感悟。套用在深度学习上也有两个条件,第一个就是你要有驾驭这个模型和计算的能力,第二个就是对问题要有足够的了解。
我给大家举一些例子。深度学习最成功的一个例子是卷及神经网络,他确实和我们对视觉神经系统的了解尤其是早期的视觉皮层细胞关系是非常大的。今天我们的深度学习已经远远超越这些模型的结构。打个比方,他们之间为什么不一样呢?这就好比研究鸟类如何飞行,但深度学习是像波音公司研究如何造飞机,本质上并不一样,今天我们的飞机可以长得完全不像鸟,更多的是空气动力学、机械方面的东西。
从统计和计算的角度讲,深度学习的原因其实更基础。一个机器学习系统,我们可能对它的误差的每个来源去做分解,去了解和控制它,从而可以控制整体的预测误差。一般做机器学习我们会做一些假设,我们知道所有假设都不是完美的,也就是第一个,模型的不完美。第二个问题是数据的不完美导致的,比如说数据是有限的,有偏的;第三个是计算的不完美。统计学通常关心前两个问题,但在现实中,比如说我的一个工程师说,老大,我这个问题需要五百台机器。我说,扯淡,我最多给你五十台。他说,五十台的话,我需要算半年。那我说,不行,必须今天晚上算出来。在有限的计算资源下去处理这样的问题,我们必须要考虑这种计算的不完美。
所以我们可以看到,第一我们需要用一个非常复杂的模型,去减少这种偏差,第二个问题我们要用无偏的,也就是大数据去弥补。这样我们得出一个结论:深度学习跟传统的人工智能比较,随着数据的增长能够吸收数据增长带来的红利。传统人工智能模型可能不够复杂,比如是一个线性模型,数据量大了后偏差会比较大。还有一种可能是模型很好,但计算的问题无法解决。比如有一种很好的模型,它的计算复杂度是N的二次方到三次方,这样处理一万个学习样本和一百万个学习样本,需要的计算资源就至少相差一万倍。在大数据的时代,这就只能到此为止了。
深度学习是一套灵活的、复杂的语言系统。在不同的问题里会有不同的语言框架,用不同的结构去处理不同的问题。百度今天在这方面可以说走在相当的前面,从规模上讲,百度可能是世界上第一个运用大规模的GPU Servers的公司 , 12年的时候,当时我们就采购了世界上最大的采购量。
今天我们有五六千台的PC Server,超过两千台GPU的Server在一起做这种混合的大规模的深度学习的训练,所以我们现在能够构建这种相当大的、千亿级参数的世界上最大的人工神经网络。在其他方面很多算法比如语音识别、图像识别、自然语言、广告、用户建模等帮助很大。
今天我们已经不是停留在研究的层面,而是对于百度的业务比如说搜索、广告、图像、语音,因为深度学习带来的提升是非常巨大的。在整个业务里扮演的角色也变得更加的智能,一言以蔽之,我们的业务模式是连接人和信息,连接人和服务,你如何去理解人的意图,比如一个关键词,一张照片,说一句话,如何匹配用户需求,如何推送信息和服务。
深度学习的应用例子
凤巢就是一个用深度学习去实现变现的例子,在过去两年对点击率和搜索满意度的提升都是巨大的。
再举一个例子,我们如何提升搜索的相关性。它是怎么做的呢?大致的思想是,评估相关性过去我们要做很多特征的抽取,今天我们把用户的查询和结果匹配得到一个分数,在神经网络里进行比较,当在训练的时候,我们会把用户体现出来的这种偏好给到一个差异足够大的分数,我用超过一千亿的的样本来训练这个系统,在过去两年里面导致相关性有了一个巨大的提升。
这带来的相关性更多的是在语义的理解,尤其是一天中查询可能不到10次的这种长尾查询,这是最考验搜索引擎的能力的,因为对于非常高频的查询,每个搜索引擎可能都差不多。这里有一个例子是玛莎拉蒂的一款车车头如何放车牌,我们过去的系统得到的基本是基于关键词的匹配,没有回答这个问题。我们的合作伙伴(Google)的结果匹配了“车头”这个关键字,但对语义没有进行进一步的理解。我们运行了我们这个模型后,你可以看到查询的问题是“车头”、“放置车牌”,但结果找到了“前牌照怎么装”,它不是用关键词来进行匹配,而是根据语义来匹配,这就是深度学习带来的一个改变。
还有语音识别的例子。百度的语音识别实际从12年开始做,但深度学习使得过去阳春白雪的东西变成了你用大数据就可以做的东西。过去语音识别从声学角度抽取特征,比如频率特征,将其抽取出来变成一种因素,然后从低层到高层的逐层处理。一开始的时候我们不关心它是什么,只是考虑它读起来是什么样子的,今天的深度学习尽量把中间的步骤变成可以训练的步骤,把中间的步骤变得可学习,中间没有过多的人工干预,带来的好处是用大量的数据训练这个模型。在Benchmark(标杆测试)上我们可以得到一个非常好的结果。
另外再给大家看一个例子,这是运单手写电话号码的识别,过去我们一开始是做检测、切割,切割以后把每一个数字切割出来做识别,但像这个例子,你会发现是没法做分割的,那你只能把它做成一个一体的的解码。这反映的就是深度学习给我们带来的不是一个黑盒,而是一个很丰富的语言系统,我们希望对这些问题有足够理解,然后去开发最适合它的模型。
我刚才提到了图片的识别,加上字符的识别,加上语音的识别,加上机器的翻译,那百度可以做出这样的产品,比如今天中国人到纽约的街头可以问:“附近哪里有川菜馆?”你用中文说了后识别成中文,然后翻译成英文读出来。我们可以不断优化这个事情,在几年的时间里可以变成现实,那么中国的小朋友们就可以更多时间去玩,更少时间用在学无聊的英语上了(观众笑)。当然还有拍照。这是我的一个好朋友,NYU的一个教授到上海,他用这个产品点菜,看菜单他就不担心这个东西是不是凤爪之类他不敢吃的东西。
我们再看另外一个例子就是图片识别。13年的时候,中国移动互联网有一个爆发的应用就是百度魔图,就是普通人可以拍张照,然后系统会告诉你长得最像哪个大咖。我们这个产品在连续三周在iOS总榜排名第一,最多的时候一天900万人上传照片,我们一下子收集了好多人脸照片(观众笑)。至今这也是百度移动产品的记录。
很多高科技公司都会参加一个IFW竞赛,也就是人脸识别的测评,它是怎样的呢?就是一些照片,系统要判断这是属于同一个人还是不同的人。去年Facebook宣称他们取得了最好的结果。但不同的公司也在不断的PK,目前来讲最好的结果是百度的(误差率约0.15%),这个结果现在到了什么情况呢?有人让人来参加了这个评估,结果大概是在这个地方(误差约0.35%),也就是说机器可能比人还要好。当然这只是一个具体的任务上,机器的表现比人好,不代表整个人工智能能达到人的地步。
还有一个很有意思的ImageNet,也就是图像识别分类的竞赛。不同行业的人可能不一定感触到,但我们这个行业能听到轰隆隆的雷声,是由于大数据,由于深度学习在发生非常快的进展。ImageNet做的是图片的分类,过去五年里,我们可以看到错误率在不断下降,10年的第一届,我的这个团队是拿了第一名,后面每年结果都在变化,去年最好的结果是我们在百度的同事做的,斯坦福同样也做了一个评估,看人类来做这个测试结果会是怎样。
(ImageNet)微软在今年1月份发布的结果超过了百度,前段时间Google的同事的结果又比微软好,上个礼拜,我同事和我说,我们的结果比Google还好。所以这个竞争很有意思,很多年后我们再回想就觉得,我们这些不同公司的研究人员就像一个班上的同学一起PK,一起分享经验,实际是在一起推动行业的发展的。
OK,图像的理解始终是和我们人类对知识的理解以及语言总是能够耦合在一起的,那怎么把这个事情做得更加有意思呢?我们在小时候可能做过“看图说话”,用语言来描述这幅图像,比如这幅图,用中文描述就是“起居室里有着百色的沙发和蓝色的地毯,下午的阳光照进房间”。这样的描述实际上是由机器来完成的。这是去年百度的研究人员最早在世界上发表了这样的论文,后来Google等都发表了类似的论文,也引用了我们的研究结果。
我们现在也在做一些中文的描述,比如说这个例子:“一辆双层巴士行驶在街道上”。我们可以做什么呢?比如说做图像识别,我们去找类似的图片,得出来的图像可能是这样的(一些街景),因为这个图像它的主要内容是建筑和街道。但如果我们用自然语言来描述这个场景,我们的出来的类似图片是不一样的。我们在百度如何用自然语言描述去提升我们对图像的理解,它背后的模型再度验证了我刚才的一个观点:深度学习实际提供的是一个语言系统,对于一个具体的问题,你要有能力去构建模型,模拟这样一个问题。这样一个例子就是下面是一个深度的卷积神经网络,它产生的一个表示,上面是一个多层的神经网络去产生语言的模型。这样的结果就是,它既是符合我们语义的语言,同时也反映了图像的内容。
我们再进一步去想:我们可以去做一些更加像人类做的事情。比如说对这样一个图像,我们可以去教小孩,去学习一些东西。这样的图像,机器可能会问小孩:他站在什么上?“他”是单人旁的他,而不是女字旁的“她”哦。我们也希望机器能回答这个问题,根据图片本身的像素,根据本身的问题能够回答:他站在冲浪板上。机器可能还会继续问:那他有穿上衣吗?然后机器可以回答:没有。这都是今天的深度学习神经网络根据图片内容自动生成的。它已经超越了我们过去的图像识别,也就是“你有什么东西”,变成了“你有什么样的语义”和“你有什么样的关系”。
对未来机器人、自动驾驶、人工智能的思考
这里回到一个我们对人工智能目前的现状和未来的一个思考:过去的互联网服务,它做的事情也有几个方面,一个是感知,另外一个理解,还有一个决策。感知就是获取数据,经过大规模的计算,比如处理,索引,然后在决策的时候能展示什么样的结果和服务。这些所有都是线上的。今天移动互联网与人更近,它和你所处的场景有关系。从感知的角度讲我们要从人,从物理世界获得信息,这种线下信息可能比互联网世界更加重要。从服务的角度,以前是线上的服务,它会向线下延伸,向传统行业延伸。像智能硬件、自动驾驶、机器人,会在未来扮演更加重要的角色。
这是我们在很多智能硬件上做的一些尝试(展示一个自动驾驶视频),未来可能是用各种传感器武装到牙齿。为什么你要在中国做自动驾驶呢?这当中有的是纯技术问题,有的是国情的。我跟同事有时开玩笑说,我们在中国做自动驾驶,这个技术一定是全世界的,但Google在美国做的技术一定不是全世界的,它不能处理中国式的过马路,它不能处理我们的井盖被撬掉(观众笑)。因为人工智能是基于大数据的智能,没有这些数据你是绝对不敢做的。我们在这样环境下开发出来的技术一定是放之四海而皆准的。
这是基于图像的这种实时的道路场景的理解、融合、深度学习的技术,我们对交通标志、道路线、对车辆、对标示都要做到实时的识别。今天我们可以做到什么程度呢?这方面的一个Benchmark,我们可以看到第一名和第二名都是百度的,而且比第三名的结果好非常多。这是我们用一个没有训练的人去标识数据(交通场景图片),我们会发现机器做得比人还要好。比如说这个人和交通标志遮住了后面的车,只露出一小部分,人没法意识这个车的存在,但机器可以识别。这样基于传感器去驾驶可能会更加的安全。前段时间Elon Musk说,未来人类开车是违法的,这个有可能成为现实。
这是对车道的一个理解。刚才讲的我们为什么要做定位呢?我们有一个现实的目标,就是做一个基于实时场景的增强现实导航系统,在北京开过车的人可能知道,那么多主路辅路,比如说西直门立交就基本就和中国联通的Logo一样了。基于实时场景的增强现实导航系统,它比基于语音的 导航或者基于二维的地图导航更加场景化。我们认为自动驾驶应该是一个渐进式的过程,从辅助驾驶到主动安全,到限定条件下的自动驾驶,到高度自动驾驶,在每一步都会有商业机会。我们要构造的不是一个取代人的系统,而是一个人车一体的系统。任何车的关系就像人和马一样,但马是可以控制的。
最后我想总结一下,我们认为在5-10年里,下面三件事情一定会成为必然:第一个是所有设备都有智能传感器,第二是所有设备它一定都有云端大脑,第三是所有设备从单一功能的设备变成连接人和服务的节点。我们可以看到手机经历了这个过程,过去手机就是打电话,今天的手机,你一天打几个电话啊。从这个角度讲,所有设备最后都会成为一个广义的机器人系统:它都有感知,都有理解,都有决策。
我们技术人员常常觉得,将机器变得非常强大是一件很酷的事情,但实际上这并没有产生巨大的价值。像以前的深蓝,在一个场景下可能比人做得还好,但并没有这个世界产生更多的影响。而像Google和百度这样的搜索引擎,它拉近了人和信息的距离,它产生的巨大社会价值,才能够去实现巨大的商业价值。这种技术的伟大,不在于让机器更伟大,而在于让每个平凡者变得有创造性,变得更伟大。
这句话大家都很熟悉,我改了一下:世界是我们的,也是机器人的,但是归根到底是属于会控制机器人的人的。谢谢大家!