本文授权转载自微信公众号:将门创业(thejiangmen)
近日,斯坦福人工智能实验室和计算机视觉实验室负责人、斯坦福丰田汽车人工智能中心负责人李飞飞教授正式宣布接受a16z的邀请,成为a16z在计算机科学领域的杰出访问教授(又名入驻教授,Professor-in-Residence)。
3年前,a16z宣布成立入驻教授项目,旨在为创业圈和学术界架起一座桥梁。入驻教授在推动学术界的研究成果更快速的向工业界转化的同时,能帮助a16z快速索定那些有意向进行技术成果转化的学术界人士。
李飞飞是计算机视觉领域最受瞩目的专家之一。她所带头创立的ImageNet是目前世界上图像识别最大的数据库。每年举办的ImageNet竞赛都会吸引计算机视觉领域的顶级研究团队参与其中,不断刷新各项比赛的成绩。
在成为a16z的入驻教授后,李飞飞和a16z的合伙人Frank Chen坐到一起,畅聊了有关人工智能、深度学习、GPU、自动驾驶、机器人、计算机教育等热点话题。
将门听译了这段时长38分钟的podcast,希望与大家分享李飞飞的思考。
问:您是如何看待人工智能(AI)在创业圈和学术圈又重新火起来的现象?
在我看来,AI的热潮从未退去过,这并不是什么新鲜事。AI 这个学科已经有60年的历史了,不过这60年一直是AI的“体外”阶段(vitro time)——大多时候它只存在实验室和研究中心里。在那里,我们打下了很多AI的数学基础,制定了AI问题,还测试了很多AI算法的原型。
现在AI正在迈入它的“体内”时代(vivo time)——它进入了我们的生活。那么导致这一转变的背后推手是什么呢?首先,现在AI 技术已经足够成熟了,这一点上主要有以下几个驱动因素:
大数据为AI做的贡献。信息时代下,互联网为我们带来了庞大的数据量
几万亿个传感器提高信息量
运算硬件。CPU 和GPU的提高,还有计算机集群
因此,数学基础、机器学习的统计工具、大数据以及新硬件四个条件的相得益彰,带我们走进了AI的这个历史时刻。
问:对于硬件,我们发现深度学习在GPU上比CPU运行更有效,因为它把任务作为线性代数处理而且可以并行运算。您认为以后会有深度学习专用的芯片吗?它如何构造以拥有有更强大的并行计算能力?会不会和现在Nvidia做的芯片完全不同?
我觉得会有并且希望会有。Nvidia是现有深度学习芯片的领导者之一,因为他们的GPU是高度并行的,可以进行高级别的并行作业。由于“神经网络”或“神经网络卷积”的深度学习算法中有很多操作都是重复计算,这些都是可以同时完成的,因此GPU 大大提高了运算速度。GPU对训练深度学习来说真的是太完美了,但我认为我们在快速测试和时间推理芯片上依然有很大的进步空间。会有更专用的芯片可以植入到设备里,我觉得这是深度学习芯片的趋势。
但是我觉得,目前我们还在探索阶段。因为算法还没有足够成熟。我们还要探索怎样是最佳方式。今年我去了一个深度学习的大会,best paper的其中一篇是来自于斯坦福的Bill Dally实验室。他们在探索把更聪明的算法用于一个具体的芯片设计。所以现在,为了设计出创新的芯片而提高算法的这件事还在进行中。
我觉得现在很重要的一点就是科研和设计要同时进行。算法和芯片设计的关系就像是“鸡生蛋还是蛋生鸡”的问题——算法导致芯片设计的变化,但是芯片的设计局限也会导致算法的变化。我觉得现在是时候在这上面投入资源去探索这一点了。当然,从商业模型的角度来说,我们也要很谨慎。
问:现在深度神经网络很火,但是在过去的这60年里,我们尝试过很多不同的技术。大家会一直对深度学习抱有热情么,还是现在火一阵也会有别的替代?
很多人都在问我这个问题。深度学习是这一切的答案吗?
首先,我很开心你提到了其他的算法和工具,当你回头看看AI的发展,在早期的Manske MacArthur 年代,他们用了很多一阶逻辑和专家系统,那些都基本来自于认知设计规则。
但是我觉得AI真正开始的第一阶段是机器学习——是统计类的机器学习算法带来的。我们看到了提升算法、贝叶斯网图形模型、支持向量机、回归算法,还有神经网络等等。所以那20-30年在机器学习算法上的发展奠定了今天AI使用统计类机器学习的基础。
我们不能个小看这点。深度学习从不是一个新鲜话题,它其实是在六、七十年代,由Kunihiko Fukushima等人一步步发展起来,之后又由Geoff Hinton,Yann LeCun 和他们的同事不断壮大的。
我觉得神经网络结构里其实有些部分是很强大的。这是一个容量很大的模型,它可以让几乎任何算法在知道任务目标的基础上,利用数据做端到端的训练,并且同时做到优化。
最明显的例子是我们现在经常讨论的有监督和无监督训练。
很重要的一点是目前我们的重点往往仍只关注于有监督训练,但我们的电脑并不能像小孩那样去学习。
首先,我们都不知道小孩是怎么学习的。有很多发展心理学的理论都还未能在计算机科学领域应用。有监督学习在可以注释的数据上很管用,但是,当他被应用在更实际的训练场景时,会很模糊。举个例子,如果某天一个公司做出来一个小机器人送到你家,然后你想让这个机器人适应你和你家人想让他做的事,最好的学习方式肯定不是把它打开然后给它全部注释的数据。你希望可以告诉和展示给他看,让它观察和学习。但现在的深度学习还做不到这点。
但是,有监督和无监督训练的差距还远远不止这点。这里还涉及到了对“智能”的定义。特别对工业界来说,任务主导的智能很重要。标记图片、避让行人、语音识别、录制对话、搬运物品……这些具体的任务主导的应用是AI很重要的一部分,但是,我们还有个“强人工智能”(AGI,artificial general intelligence)的概念,包含推理、概括、沟通、情感互动,理解智能和目的规划学习以及理解环境的人工智能。
以上这些我们现在都还不知道怎么去实现。
问:创新人工智能(creative AI)在你待解决清单的什么位置?
其实,我们先要问自己一个问题,什么是创新?如果你去看AlphaGo 赢的那4场比赛,李世石在每场里都有对AlphaGo做出的决定感到惊讶的瞬间。在围棋社区里,不少人都对AlphaGo具有能下出人都想不到的步骤的创造力而感到吃惊。
从这点,我们已经看到创新和人工智能的创造力了。这个创造力的一部分就是能做出我们预测不到的正确的选择。这些现在已经是现实了。
一个很有趣的现象,目前有些深度学习已经开始在转换艺术了。你可以给它一幅梵高的画,它可以把一张图转换成那副画的风格。但我同意,这只是个模仿机制。我们所说的创造力是可以混合我们的逻辑思维、感性思维 和直觉思维,我至今还没有在任何建立在数学公式上的作品里看到这样的表现。
这就回到了我之前说到的三点里的“大数据”那一部分:究竟AI能不能通过学习海量的数据,做出真正创新的、数据里没有的东西?我们已经看到机器可以模仿不同的画画风格,因为他们通过数据可以分析出不同类的风格。但是,现在的问题是,用深度学习我们最终可不可以完全生成一套崭新的东西? 我们离印象派和立体主义这些还都很远,因此回到一个更平凡的层面,比如计算机视觉。我们近期的一些工作可以实现对一张图片进行简单的描述,接下来我们做的是对一张图片进行Q&A。
我们在想,能不能开发一种算法,它不仅可以通过训练数据来学习,也可以学习如何去学习、学习如何问出合理的问题。举个例子,在我们最近上交的一份paper里,我们给电脑一张图片,然后问他图里的女生在干什么。电脑反过来,需要先问我们一系列问题,才能回答我们的问题。所以,这个算法需要学习如何不直接回答问题,而是先探索正确问题的潜在空间,再达到正确的答案。学习如何去学习是我们希望孩子们掌握的能力,这也是我们希望算法可以做到的。
问:我很喜欢你之前说的关于人工智能“体外”和“体内”阶段的描述,处在转换的这个时间点,你觉得现在的创业公司会为体内阶段带来什么不同?
首先,现在的算法已经成熟到工业界和创业界都可以使用的阶段了。20年前,只有少量的几个世界顶级的实验室才有可以真正能做事情的AI算法,那时AI还没有渗透到其他行业和大众群体中。所以在当时,一个创业公司甚至一个大企业想拿到这些算法都是很难的。
当然还有其它原因,现在互联网的大爆炸,更多感应器的应用,导致现在AI的应用面大了很多。要想收集数据,我们要管理和理解信息。这带来了很多智能算法的需求,这就是现在AI的应用之一。
有了这些意识和目标,现在才有了自动驾驶汽车这类的场景。突然之间,我们需要开始创建驾驶汽车的智能算法了。这也是我觉得现在AI一下子火起来的另一个原因。
问:那么对于创业公司和大公司都开始做自动驾驶的人工智能这件事,你怎么看?小公司和大企业的贡献该如何更好的分配?
从谁会赢得“自动驾驶”这场比赛的角度来看,我觉得对像丰田这样的大公司来说,只要他们全力投入,在车上安装镜头,他们就可以很快拿到大量的数据,这点对于小创业来说很难。像Google这样的公司,他们一开始没有车,但是有算法。他们开始的很早,所以他们现在既有数据又有算法。虽然他们是软件公司出身,并不是一个开始做软件的汽车公司,但软件的重要性仍使他们拥有很大的优势。
那对于创业公司来说,他们的优势在哪里?我觉得有很多商业场景,对于大公司来说不重要,但创业公司可以瞄准更细化精准的领域或者垂直行业来建立他们的数据和算法。或者可以走MobileEye的路线 ,不做整个系统、整辆车,而是把一个关键的零件做的比其他任何人都好。
问:你的同事Andrew Ng离开斯坦福后在Baidu开了一间人工智能实验室,帮助Tesla进行技术研究,但因Tesla近日的自动驾驶事故而受到了一些困扰。目前看来一些基本的驾驶场景自动驾驶汽车还不能很安全的处理好,Andrew也表示自动驾驶技术目前仍处于未成熟的阶段。我知道你也参与到丰田汽车项目的研发中,因此这件事你怎么看?
当Tesla的AutoPilot面世时,我在Youtube上看过他们的一些视频。作为一个母亲,我绝对不会让我的孩子坐到这样的车上。因此,从这个角度上看,我的反应是有些拘谨的。但我真的希望在商业和消费者之间能有一个很清晰的沟通策略。不过我没有买Tesla,所以也不知道Tesla是怎么和他们的用户来沟通的。
但如果Tesla已经明确的告诉他的用户什么时候应该相信自动驾驶系统、什么时候应该用这个系统、什么时候不应该相信,这个时候,我们就又面对了另外一种情形,当Tesla已经尽到了所有告知的责任,而消费者操作失当时,谁应该来背这个锅。因为每一台机器,如果操作失当,都有可能产生让人心惊肉跳的后果。我想我们需要一个的是一个全社会都来参与的对话。
在我们的斯坦福-Toyota中心,有一组教授正在奋战于各种各样的项目,其中有一个很大的项目就是由HCI组所领导的。有一件事是我们特别需要谨记于心的是,与计算机相比,人类其实是运算极其缓慢的计算机器。和晶体管比起来,信息在我们脑海中传递的速度是非常慢的。如果要产生运动行为,从我们的大脑再到肌肉的这个过程,就更慢了。所以当我们在讨论人机交互和瞬间决策这个话题的时候,一定要把这个考虑进去。
问:这其实让我想起了很有名了电车难题(trolley problem)。当自动驾驶的车辆在行驶中遇到前面的车辆突然刹车的情形时,它是应该选择不作为,直接撞上去,令车里的人受伤呢?还是向右转,撞到旁边骑摩托车的人呢?又或者是向左转,撞上一辆小型货车呢?如果发生事故,谁需要对此负责任呢?算法的设计者?
这其实就涉及了近几年来我一直在AI的教育和研究上所倡导的一个理念——我们需要在机器当中注入很强的类人思维的元素。科技发展越来越快,它们和人产生接触,进入我们的真实生活中,我们所思考的方式以及开发和设计的算法,让我们的生活变得更美好。但科技如何才能与人类更好的融合共存,我认为需要给它加入那么一点人类思考的方式进去。
这个项目的负责人是Silvio Savarese教授,他们研发了一个名叫Jack Robot的社会机器人(social robot)。Jack Robot其实是一个自动驾驶的机器人/交通工具,它主要想要解决的是我们在驾驶上所谓的最后一公里问题,它的使用场景是在一个更社会化的空间中,而非高速公路上,像人行道、喧闹的城市、校园、机场等这些地方都算。
所以,当我们来看驾驶的最后一公里问题或者仅仅只是社交场所的时候,我们突然发现它要解决的就不仅是行驶在高速公路上所有需要注意的事情,如了解周围的布局、路人、小巷子,你还需要能够找出一种方式,能够让人类觉得是素质的、可接受的。
有些人可能会说,那这个简单了,让它们保持足够低的速度前行,遇到人就停下来不就行了。其实我们也测试过这种方法了。但结果是,如果按照这么来办,那这个机器人想要去一个地方,基本上是不可能的事了。因为在一个很拥挤的环境里,一定全都是人。如果机器人完全遵循上面的做法,它就会一直在礼让行人,那么就哪儿也去不了,只能停留在原地。
问:坦率的讲,如果把这个机器人放在旧金山的街道上,估计会被踹好几下。在那么挤的街道上,它又移动地这么慢,人们是不是就怒了?
是的,我们确实想过这个问题。但目前为止,我们还没有想到解决办法。我想这个机器人必须要有一个能够进行求救的电话功能。但打造一个这样的机器人,其实我们想要解决的是一个“如何能在理解人类的社交运动后,能成功完成某项任务”的问题。比如能在校园里,把某个东西从A点运送到B点。当然,是用一种有素质的方式。
所以一开始我们在斯坦福的校园里去用数据记录人们的行为方式,观察他们在小范围聊天的时候是如何聚焦到一起的,以及他们是如何行走的。尤其是在早上9点的时候,斯坦福校园里很多学生要赶着去上课,而他们行进的方式并不是完全随意的。根据要去的方向,他们会形成一些很有趣的花样。
我们收集了这些数据后,把它们注入到我们的算法中,让算法去学习这些数据,并且着重去注入一些社交的准则(social rules),比如:
在去一个相同的方向时,人们会倾向于跟随其他人;
当人们在聊天时,你不会轻易打断他们。
但我们给到的一些社交线索也只是比较笼统的,至于去具体的像什么时候要去避开两个正在聊天的人,要从多远开始避让,是在10英尺的地方还是2英尺的地方,这些都是需要算法去通过自己的观察去。
问:因为每个地方的风俗都是不一样的,所以这些机器人是每去到一个地方,就需要拿当地的数据去训练它一遍么?
这是一个很棒的问题。我的回答是,目前我们还只能是根据地点的不同去一个个训练它们。我们需要去收集不同地点的数据。但就像我之前说的,我的下一个梦想就是希望能教会机器人应该怎么去学习,而不是模仿训练数据。如果到那个阶段,机器人应该具有线上学习以及增量学习的能力。
问:我想听你再多说说之前谈到的人道主义方面的问题。你说你希望在计算机科学中注入更多的有首人文科学的东西?
3年前,我就开始思考,其实在我的职业生涯里,正上演着两个让人们觉得恐慌的事件。一个是人们觉得终结者就要来临,人工智能(AI)开始变得邪恶,我们有一天将会被这种邪恶的力量所统治;另一个是在我所处的STEM/AI行业里,女性的角色太少了。
当我想清楚的时候,我发现其实它两者都和一个很重要的假设有很大的关系——在开展有关科技的教育和研发的过程中,我们缺少了人本思维和人本使命的宣言。所以现在让我们来看第一个问题,为什么我们会认为技术会变得邪恶?技术都是掌握在人类的手中的。
技术本身是中立的。大到核武器,小到一把能切苹果的刀,只是在不同的人手中,才产生了不同的后果。因此,为了让技术肩负起它应有的责任并且不作恶,我应该追求是这样一个社会——我们的技术人员应具有人本意识和思维,能负责任的将技术进行恰当的使用。
关于第二个问题,为什么政府没有投入足够多的资金去吸引足够多的女性进入STEM和我所在的领域?我发现其实要去说服女性加入这些领域是非常困难的。拿斯坦福的学生来说吧,他们都是极其聪明的。几乎来到斯坦福的每个学生,不管是本科生还是PhD,他们都非常擅长分析问题、有很好的写作能力、关心着整个世界。我突然意识到的是,在我所处的这个领域(在硅谷也是),我们并没有向社会中各行各业的人们传递正确的信息。
我们往往只是去推崇极客(geekiness)和书呆子(nerdiness)。当一个拥有远大抱负的女生走进我们的学院或者是我们的AI实验室的时候,她可能正在思考的是老龄化的问题、如何治愈癌症的问题,以及一些其他众多与社会息息相关的重要问题。如果我们只是展现出我们对极客感兴趣,喜欢去一些极客的事情,那我们就会错失一大批真正想将技术应用于解决人类问题的人。因此,我开始意识到由于我们对于人工智能中的人道主义使命的思考和关注不够,使我们错失了很多去促进这个领域多元化发展的机会。
在我和我之前的学生Olga Russakovsky的设计下,我们的实验室发起了一个让高中女生来学校参观两个星期的夏令营。我们希望能够吸引到那些开始思考她们是谁、她们未来想做什么的女生。创办这个夏令营,我们最希望达成的目标有两个。
一个是我们希望能从技术层面去激发这些在数学和计算机方面拥有天赋的学生,他们将是未来AI的领袖。但同时,我们想要吸引的是那些还没有开始思考AI到底是什么的学生。他们还不了解AI当中所蕴含的人文使命。实际上,在暑假里,我们做了一个非常严格的假设测试,并写成了一篇技术论文。
我们的夏令营从一早就开始了,学生们会去听非常严肃的讲座、和TA和博士以及博士后学生们一起去探究AI方面的技术问题。下午的时候,她们会被分成4个研究小组,每个小组都是一个有关AI的技术项目,比如说计算机视觉、自然语言处理或计算生物学。
不过,我们在每个项目中都加入了很强的人文陈述。举例来说,去年,我们开设了4个项目。计算机视觉项目通过步伐传感器去观察医院的环境,帮助医生和护士去监测手部卫生的情况。自然语言处理项目通过运用在自然灾害时期Twitter上的数据,比如说地震,进行正确的数据挖掘工作,试图找出能够帮助人们进行灾后援助的信息。
其实每一个项目都是非常技术的,但与此同时,她们又真切的学会了如何将技术与人类的问题相结合。我和我的两个本科学生、一个博士学生组成了一个研究小组,我们针对以下的这个假设设立了一个非常严格的评估项目:人道主义是否能够增强人们对AI的兴趣?结果我们发现在数据层面,这些女生对于这个话题的兴趣在项目开始前后有巨大的不同。相关的论文将会发表在计算机科学和教育大会上。今年我们还会开展这个项目,我们也真的希望它能成为一个长期存在。