雷锋网按:本文根据孙剑博士在微软亚洲研究院召开的“让世界充满 AI-人工智能研讨会”上所做的报告《通向视觉智能之路》 编辑整理而来,在未改变原意的基础上略有删减。
孙剑博士2003年毕业于西安交通大学,后一直在微软亚洲研究院工作,担任首席研究员。其主要研究方向是计算摄影学, 人脸识别和基于深度学习的图像理解。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文90余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士于2010被美国权威技术期刊MIT Technology Review评选为“全球35岁以下杰出青年创新者”。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军(ImageNet分类,检测和定位,MS COCO检测和分割)。孙剑博士拥有四十余项国际或美国专利,他和他的团队的研究成果被广泛应用在微软Windows, Office, Azure, Bing, Xbox等产品中。孙剑博士于2016年7月正式加入旷视科技担任首席科学家。
大家好,我是Face++的孙剑。
前面大家提到人工智能的前景,共识是目前感知智能已经做的很不错了,但仍旧没有明确的思路去做认知智能。
Face++旷视科技的研究团队现在集中精力在做感知智能。我们的基本思路很简单:做技术,做产品,做数据,希望让三者形成正循环来推动人工智能的发展。
我在 Face++ 做的核心技术研究与我在微软时做的方向一致:图像分类、物体检测、语义分割、和序列学习。
关于第一个核心技术(图像分类)在 ImageNet 上的进展:去年我和微软团队做的ResNet 一举把网络的深度从十层或二十层推到 152 层,效果非常好,而且这个模型我们已开源,并且在业界得到了广泛应用。在 Face++ 我会继续进行这个方向的研究,我们系统是ResNet的一个改进版,它和微软时的系统有何不同呢?新版本融入了新的网络架构设计思想,现在一个新的改进版 ResNet 在 ImageNet 上可以媲美以往组合六个ResNet。
图像分类中一个很重要的问题叫做人脸识别,2013 年我跟微软的同事做出High-dimensional Feature,这是是没有深度学习时最好的方法。随后 Facebook 用了 DeepFace,也是第一次用深度学习神经网络方法,使得人脸识别率与人类眼眼的识别率非常接近,随后很多家公司包括 Face++ 均采用了深度学习的方法在数据集上超过人眼识别率。
那么计算机真在人脸识别率上超过了人了吗?我的回答是:很多情况下,是的。例如在身份认证和智能安防方向的应用,Face++的人脸识别产品已经超过了人。人脸识别研究已有三十年,今天我们是第一次在上亿的规模上应用人脸识别。
我们关心的第二个核心技术是物体检测,即,将各种物体在图像中识别并定位出来,换句话说就是不但要识别图像包含什么物体,还要知道物体在哪里。目面Face++拥有一个在著名的VOC2012物体检测的评测中性能最好的单模型物体检测器。为什么强调单模型呢? 因为考虑到端上计算力的限制,我们在实际产品广泛使用单模型。
我们关心的第三个核心技术是语义分割,就是对每个像素分类。这是一个更为精细的分类工作。我们Face++的一名实习生的工作目前在VOC2012语义分割评测中名列第一,他现在正在准备CVPR的投稿。我们欢迎广大的在校学生来我们公司做最顶尖的研究,做更有趣的应用。语义分割还能应用在智能安防场景中,这个视频展示了我们不仅可以把人分割出来,还能把人的不同部位分割出来。由于时间原因,关于序列学习我就不展开了。
做这些技术需要一个做训练引擎和平台,目前行业里较为流行的有微软的CNTK,谷歌的 TensorFlow,和开源的Caffe 。而Face++ 则有着自己的平台叫Brain++,它的设计与 TensorFlow 相似。TensorFlow 发布至今有一年的时间,而我们的 Brain++ 已经在公司运行将近两年了。做自研的平台非常关键,公司敢做并能做,是因为我们拥有最顶尖的人工智能技术人才,我们的研究团队应该是中国ACM金牌选手密度最高的地方。目前在人工智能创业公司中使用自己的深度学习训练引擎的,可能只有Face++。
有了这样的平台和技术,我们打造了两方面的产品:Smart ID,用来提供身份认证服务;Smart Camera,用来将智能前端化。目前我们产品覆盖包括银行、金融、、互联网、零售、地产、公共安全和机器人等行业。我们希望通过“人工智能+ ”把人工智能渗透到每个行业当中。
这里有几个数字,Face++ 人工智能云开放平台的API已经服务了近七万开发者,已被调用 62 亿次;我们的身份认证平台目前已为一亿人,注意不是一亿次,提供了身份认证的刷脸服务,覆盖了85%的金融市场智能化应用。
一般情况下我的报告到这里就结束了,但今天是回家汇报,那我就再继续分享一些对人工智能更个人的看法。我也一直在问自己一个问题,我们当下研究 AI 方法,是在爬树还是在造火箭。
这里有一幅画的内容是这样:你要想上月球,选择爬树能接近月球,每年还能有不错的进展,有些树高得可能一辈子都爬不完,但到不了月球那里。如果我们不知道怎么造火箭,只用爬树的方法,是永远上不了月球的。
那么问题来了,我们现在研究 AI 的方法到底是在爬树还是在造火箭?按我们目前的办法到底能不能上“月球”?
再回到开场时的提及的感知智能和认知智能这一话题。大多数感知智能能做下去,是因为我们能够很明确的定义他的输入和输出是什么,然后我们用非常深的神经网络去拟合一个函数 f(x) 就可以。
但在认知智能方面,我们不知道如何去定义它,不知道如何去准备训练数据或环境,换个说法或许是这个系统太复杂,以至于我们无从入手。所以我把大多数人做的、特别是工业界研究人工智能的方法概括为方法一。
什么是方法一?方法一就是:从实践到理论。
靠不断地实践来得到理论,不过严格意义上讲,其实是没理论。由于人工智能这个大问题过于复杂,我们也比较现实地把它拆分为很多很多子问题:如语音、视觉、自然语言等等。这就是我们目前研究人工智能的方法。
于是我们问自己有没有方法二,能不能从理论到实践,能不能先有一个理论,然后应用到所有问题当中去。
那现在到底有没有这样的指导性理论呢?我自己是一直不大相信有的,借用我的博士导师沈向洋的一句话:哪儿有那么多随便就能指导实践的理论。
直到我最近重新读了一遍 Jeff Hawkins 写的《人工智能的未来 On Intelligence》,我有些相信了。这本书出版于2004年,此前我在 2009 年读过一次。Jeff Hawkins 是 Palm 的创始人,在创立 Palm 前他已经学习了很多人脑科学方面的知识。他在做 Palm 赚够钱后建立了Numenta研究所,专门研究机器智能。他写这本书的一个很大动机是对外阐述他对机器智能的理解。
书中写到大脑分为两部分:大脑皮层和旧脑(古脑)。
大脑皮层大概有六层,每层两毫米厚,铺开的面积可能比桌子还要大,每个神经元和周围的成千上百的神经元相连接。大脑皮层并不是突然出现,最开始爬行动物是没有大脑皮层的,而在几千万年前哺乳动物开始有了大脑皮层,几百万年前人类的大脑皮层突然增大,使得人和动物划开了界限。
书中最让作者包括我信服的观点是:人比动物聪明,是因为人类大脑皮层简单迅速地复制了自己,而不是生成其他特殊的结构;几百万年的时间不足以生成一个特殊的结构 。
上世纪70年代曾有人提出这样一个观点:大脑皮层是同质的,每个地方都一样,这下面可能存在一个主管我们人类智能的通用的算法;人类有不同的各种感知只是因为不同的输入器官与大脑皮层相连接。
而且大脑皮层可以重塑,如果某个人天生失明,那他原来主管视觉部分的皮层可以演化为听觉部分,大脑皮层的各部分功能不是固定下来一定要做什么的。
大脑皮层的这个通用算法其实是在实时处理时-空的神经元突触的电位变化,这里面有个计算方法,该计算方法和计算机的计算方法不同,它不是靠算的。有神经学的分析,人类的大脑的运算速度并不快,大脑不是在计算,而是在记忆中直接提取相似的东西,从而直接回答答案。简单来说,人是利用记忆系统来完成计算的。
我这里列出了书中对人类记忆的属性的描述,时间关系就不详述了。
Jeff Hawkins 在最后展示他的智能理论新构架时问:什么是理解?
他举个例子,如果我们回到家看到家中的环境,我们可能不会特别注意到什么;但家里假如出现一个新物体,我们的注意力马上就会被吸引过去。Jeff Hawkins 做出以下理论解释:大脑时时刻刻都在做着各种预测,如果哪个地方预测失败了,那个地方可能就是出现了新情况或新物体。此外,大脑皮层还在做各种各样的从初级到高级的预测。
这里有个非常有意思的故事,当年我们写过一篇关于图像修补(Image Completion)的论文,论文的研究内容是猜测被遮挡住物体的后面是什么样子的。其实人也在有意识无意识的预测这种事。当年我们在和沈向洋老师一起写论文时就是在预测某个物体的后面是什么,然后把它画出来。
《人工智能的未来》一书的理论简单来说,就是该理论认为智能是一个记忆-预测(Memory-Prediction)的框架,智能是你能够利用对这个世界模式的记忆和预测的能力来衡量的。图灵定义图灵智能,是利用行为来衡量。而 Jeff Hawkins 并不同意。
我第一次读过这本书后受到很大的启发,于是在2011年写过一篇CVPR论文。论文内容是为解决大姿态下人脸识别的问题:我们构建一个人脸数据库,构建一个记忆,希望把正面脸和侧面脸通过记忆连接起来,这是当时人脸识别最好的方法。有趣的这篇论文的第一作者是 Face++的 CEO & 创始人印奇。
目前在神经网络的研究中,我们认识到记忆的重要性,如果没有记忆,那么训练出来的系统仅能完成一个简单的 f(x),所以目前业界最近有很多的人工智能最前沿工作均集中在如何实现有效的记忆机制,如何存储不变表示等方面。
最后回到报告的题目,当下我们都苟且在方法一上,我以前不是那么相信从理论到实践;但现在我相信从理论到实践的方法二是存在的,而且就像大脑皮层简单复制自己一样可能没有那么复杂。方法二的到来比我们想象的更快。
谢谢大家!