依图 CEO 朱珑：机器识别能力三年提升一万倍，AI 帮助探索人类智慧边界

AI 依图人脸识别

作者：张栋

2018/05/20 10:29

依图 CEO 朱珑：机器识别能力三年提升一万倍，AI 帮助探索人类智慧边界

昨日，ACM中国图灵大会在上海成功举办，依图科技联合创始人、CEO朱珑在会上宣布了一个他们的“重大”发现：中国每1亿人中就有一个人跟你长得一模一样；也就意味着全中国范围内，就有除你之外的13个人，可能连你亲生父母都分辨不出区别。

一般来说，在1：N识别比对过程中，如果是省级范围，机器要从1亿张（近似值）的人脸中来回答“你是谁”，难度很大。如果再上升到国家层，中国人口差不多14亿，从14亿人次当中将你找出，对机器识别性能的要求更高了一个量级，可能是千倍、万倍地增长。

他表示，2015年机器识别人的水平正式超过人类；而2018年机器的水平又比2015年再提高了1万倍，这在学界、工业界、文艺界都难以想象。

在这期间，人们将一组组照片“喂食”给计算机，一个人20年前和现在的照片为一组，戴墨镜和不戴墨镜为一组，减肥前后为一组，整容前后为一组……告诉计算机，每一组是同一人。大量照片输入后，计算机会反复自我学习并从中总结规律，进行自我迭代，分辨能力日益精进。

到今天，相关技术能够根据人脸和眼球的数十个维度进行精准判别。在朱珑看来，AI技术的识别突破，已经打开了现实生活或者现实工业界中的产品的突破。

以下为朱珑博士的现场演讲文稿，雷锋网作了不改变原意的编辑及整理：

依图是我们这一代做AI非常典型的代表，我在2012年回国，之前在美国待了十年的时间。从履历上来讲有最重要的两段经历，第一段是 15年前在UCLA，UCLA的博士时期做统计建模和统计学计算，我的导师叫艾伦.尤尔，他的博士导师就是著名的理论物理学家霍金；然后在MIT的Jeff Hinton的AI Lab做计算机视觉建模；最后一段是回国前正好在深度学习爆发之前的UCLA的Yann Lecun实验室。

在2012年之前，我们还不太敢说自己是做AI的，是会说自己是做非常具体某些方向，比如统计建模、统计学习。从2012年开始，AI比较热门，既使是在美国大家可能也不是这么恐慌。有几张图，从右边开始，从这个AlphaGo上《自然》杂志到美国著名的《经济学人》杂志。

可以看到有了AI之后，AI可以作为世界最著名的杂志的封面文章主题，大家可以看出节奏是非常高的，而且过去两年以来一直是全球的热点，包括AI以数据为中心的这种论据，以及关于学习，关于具体人脸识别的，关于开车，关于健康医药等等都会成为热点。我们关注的是未来到底AI能发生一些什么。

AI现在是处于什么时代？

一个跟过去比较重大的区别是，AI发展太快了，特别是我们中国这个技术处于一个非常难辨别清楚技术是真是假、是好是坏，或者说如何区分。以深度学习为代表新的AI技术，过去做的人或者是做的实验室本身就不多，也是这几年才开始热起来的。全球研究的积累或者说长时间的积累是不够的。因为热就使得各方都来参与到AI的这个讨论或者交流甚至宣传当中，AI就变得特别多，客观上使得很多专家的意见等等就很难区分开来，可能不仅是中国，美国也是这样子。

另外一个是技术到了一个很可能没有权威的时代。像是我们过去不管是从计算机视觉，还是整个AI，最好的实验室几乎能够垄断预测全球百分之七八十的进展，但是现在AI无论是在美国，还是在中国，还是在欧洲，大家的发展是比较跳跃性，或者是在一两个实验室非常难预测主流到底在关注什么。这是整个时代的特点。

从我的背景来讲，既是学术界又是工业界创业，又是在中国2012年到2018年这五、六年非常特殊的一个阶段，过去中国没有非常成熟的科技创业的情景和市场机制。对于一个生态可能最重要的是工业界，无论是行业巨头，还是Start-up构成的工业界（今天以技术为主的科技界），AlphaGo不能算是广义上的技术。政府、投资者、媒体，这三者是比较成熟的，或者是比较频繁交流的。在2012年之前，学术界不像今天经常会被政府邀请来交流，也不会被一流的基金邀请交流，美国过去因为市场成熟，这些人经常会在一起交流，甚至都是朋友。中国这几年开始，各种背景的人在一起交流的越来越多，这是新的形态。

讲一下依图科技这几年做什么？去年，我们在人脸识别方面有了一点点小小的成绩。在美国国家标准与技术研究院（NIST）举办的人脸识别比赛（FRVT）中获得了冠军。这个跟学术界的比赛稍有区别的地方是，它是美国官方的人脸识别比赛，AI算法的测试数据是刑侦数据或者出入境数据，这个数据量达到了1000万的规模，并且这样的数据没有公开出来，只能提交算法去测，主办方公布结果，所以基本上是在看不到数据的情况下做的一个盲测，不像学术界是公开数据集的方式，是比较难的。当然包括全球的不同人种，以及不同外观条件或者实战统计下来的场景。NIST的这个测试结果这也是在全球工业界应用的黄金标准。

在这个基础上有几个重要的事实。2015年，机器识别人的水平正式超过人类，这是非常重要的。我们透过大量的交叉实验来认证、跟人做对比，无论通过学生还我们跟招商银行合作的刷脸取款，都要后面的客服人员来跟机器进行结果对比，大概是在2012年就可以超过人了。

2018年机器的水平又比2015年再提高了1万倍，这是一个在学界、工业界、文艺界都比较难想象的一件事情，或者不能够这么精确地知道这样的一个方向。

技术算法在工业界到底怎么样？从最简单的开始，2015年的时候人脸识别，机器比人强，更重要的一个基础的应用就是1：1的比对，就是大家理解的2017年iPhone推出来的刷脸开机。这个事情还是比较简单的，因为是静态人脸面对机器，所以无论是采光的条件还是其它条件还是比较简单的。学术上我们把它叫做应用层。

往下一层是1：N。无论什么设备，拍一下，或者是在摄像机里面捕捉到你的人脸，如果是一个省的话，1亿张的人脸中来回答你是谁。1：1是你已经告诉机器你是张三李四，第二个场景是不知道你是谁，从1亿张里面辨别出来，这个难度是非常大的。

再往下一层就是说一个省到一个国家。中国人口差不多要到14亿人，从这14亿当中把你找出来，对技术的要求是非常高的。在这种场景下，摄像头里面布控了几十万量级的重点人员，来评估出现的人是不是重点人员。这个对识别性能的要求再高了一个量级，可能是千倍万倍地增长。什么意思呢？技术的识别突破，打开了现实生活或者现实工业界中的产品的突破。

把这几个事情归纳一下， 2012年之前，可以认为人脸识别几乎没有什么发展，2015到2017、2018之间的发展曲线是非常非常陡的，然后再到2017年之后，我们看一下未来的发展到底是什么样？会不会再10倍100倍地发展。不同的曲线上不同的点打开了工业界、生活应用的不同场景。

大家现在有个讨论，技术是是不是发展到了瓶颈，各项算法之间有没有区别？这是我们中国1亿人像库的情况下，真实的比较难的刑侦案件的破案环境的一个对比的表。这有几行，一行是我们人脸比对的解决情况，后面几行是其它算法提供商。最高是前20名，第一名跟前面的差距非常大。

这个是在城市不同场景下的应用，首届数字中国建设峰会期间，从机场到火车站，到刷脸入住到刷脸进展馆，这是第一个完全不用证件在几万人规模、不同场景下的一种人脸识别技术的使用。

AI除了非常有用以外，还能够帮助我们理解人类的智慧到底是什么样子的，人类智慧的边界是什么样子的。我们人类自己怎么区分人的规模和精度，到底是怎么样的？过去是没法做这个科学实验的，1万人还是7万人你辨别不出来。机器到一个非常大规模的时候，很轻易地识别1亿人、10亿人，甚至更多的时候，机器识别今天相当于提供了一把尺子，我们从学术上来讲就是变成这种，根据这种相似度能够筛选出来，按照他的这个比例筛选出来给人去测，就可以测出一个人在有效的时间里面测出一个人类自己看这个世界的这种能力。

这是第一次人类有一个非常稳定的机器，有识别能力看到人和机器智能差别到什么程度。

今天机器是有了高性能的，比人类大很多倍的这种能力，能够帮助我们回答这些问题。我们还做了一个实验，在几千万量级的身份证数据库上，一个客户把他女朋友生活照输入进去，这个输入输出出来的前十张，他是非常难辨别哪张是他的女朋友。过去机器认识生人会比人强，这个证明一件事情，一个是熟人你天天生活或者是接触非常频繁的人，但是现在识别熟人脸的话，机器也比你厉害，这是另外一个例子。

我们还做了一个非常重要的一个实验，就是在13亿的中国人有多少跟你长的一模一样的人，一模一样的定义是什么呢？你妈是辨别不出来谁是谁的这个标准。结果是，每1亿人当中有一个人跟你长的一样，所以全中国差不多12个人跟你长的是一模一样的，大概是这样的一个情况。

这个意味着什么呢？今天我想问题或者是跟大家分享一下，1亿人当中有一个人跟你长的像，这意味着什么？或者是说人的眼睛的辨别能力为什么不是1万，为什么不是10万，为什么不是千万，正好是1亿这个量级？

人类进化过程中，视觉识别能力在各大感官中的比重越来越大。可能是人类开始穿衣服了，人嗅觉识别家庭成员的能力在哺乳动物中算是比较低下的，甚至主要就是看人脸来辨别同类。选择压力将驱使人类的脸之间的区分度需要尽量的大，这样保证家庭成员的稳定性得到保障。人作为社群动物需要和大量同类打交道，脸部识别错误的代价是失去整个基因组的遗传继承。对应的编码人脸形状的基因数量需要很大，目前知道有一条染色体的一大块用于编码脸部特征。一亿分之一的识别度是一个具有巨大社会学意义的统计数值，背后更多的生物学意义需要更近一步探讨。与之对应的一个未经实验证实的观察是，动物的脸部特征区分度不像人类这么大。比如猫和狗，光看脸，我们很不容易区分出来。

人是一个非常社会化群居的，跟人与人交互非常多的这种社会形态，人脸对于身份的确认是非常重要的，所以人类如果不具备辨别能力，你可能在出门回来之后你认不出你的小孩，认不出你的老婆，就会出现社会的骚乱，所以人脸识别对基因的进化是非常大的影响。

最后讲一下，我们在中国做科学研究也好，做创业也好，我刚才举的例子，不管是在应用者，还是商业决策，我们有这个实践，有这种世界级的命题，命题的高度直接决定了公司的高度，而不是取决于你的聪明，或者说不止是你的聪明才智、你是不是从MIT毕业的。希望今天的感受能够分享给大家，谢谢。雷锋网雷锋网