雷锋网按:本文作者胡嘉琪,雷锋网首发文章。
人脸识别技术,作为计算机视觉的头号当家花旦,在国内人工智能领域最近成为了一颗璀璨的新星。
早在去年年底,阿里系的旷视科技(Face++)就获得了1 亿美元融资,而本月聚焦计算机视觉技术的商汤科技更是获得了4.1亿美元的B轮融资,创下全球人工智能领域单轮融资最高纪录;云从科技、依图科技、深醒科技等人脸识别玩家在近期均获得了千万美元级融资,这些清一色的轻资产算法公司,能获得资本市场如此巨量的融资,本身就是一个奇特的现象,难怪连看好人脸识别领域的李开复,也惊叹这个产业“竟然能养活四只独角兽”。
另外除了这些上游算法提供商,海康威视、大华股份等传统安防行业巨头均投入大量资金进行人脸识别的技术研发之中,如根据海康威视年报披露,海康在2016年研发投入达到24.33亿元之巨。
人脸识别投资逻辑:诱人的市场空间
由于众所周知的原因,中国成为了人脸识别技术成长的最佳沃土。2016年中国平安城市的相关招标额总计达到660 亿元,而整个中国安防行业的规模更是千亿级市场。根据中安网数据,中国安防行业市场规模从 2012 年的 3240 亿元增长到 2016 年的 5400 亿元,年复合增长率达到惊人的 15%,而其中2016年视频监控产品产值约达到962 亿元。
中国视频监控行业在过去十年经历了高清化、网格化的升级换代后,已经形成了累计投入近万亿的硬件基础设施,在视频监控领域完成“看得见、看得清”两步以后,人脸识别技术就犹如“看得懂”这临门一脚,是实现AI+安防最重要的一步,如果人脸识别技术确实能为安防这个正在不断被做大的千亿级蛋糕,增加画龙点睛的一笔的话,其市场规模足以让人睡着都笑醒。
除安防以外,人脸识别技术在交通、金融、教育、房地产、移动支付等多领域都将有广泛应用,如金融中的远程开户、支付、鉴权等,人脸识别具备在多个行业领域大规模普及的潜力,而除了这些B端、G端以外,人脸识别尚且还有一个尚未打开的C端。这个诱人的大蛋糕组合,就是人脸识别技术背后的投资逻辑。
人脸识别技术成熟度曲线:你微笑了吗?
始于马云的“刷脸支付”,随着人脸识别技术逐渐成为热点,科技媒体不乏各种类似“人脸识别新技术准确率超99%,比肉眼更加精准”等报道,具有较强的误导性,而事实并非完全如此。
在学术界中,人脸识别算法准确率确实能达到99%以上,如在国际人脸识别界的两个经典榜单LFW和FDDB中,几乎主流玩家都能做到识别准确率99.5%以上,特别是国内团队,分数远超google。但是,LFW和FDDB仅是两个数据量不算太多的学术数据库,比如LFW仅有1万多张人脸图像,通过对主流人脸识别算法的不断调参,识别结果很容易刷到非常高的水平,熟悉机器学习的人都知道“过拟合”的概念,但由于种种原因,LFW和FDDB等学术榜单都成了人脸识别算法商用于市场宣传的噱头,就如安卓手机商每出一款新机型,都要为安兔兔等榜单密集优化一样,但实际手机使用体验和测评分数是两个概念。而对于人脸识别技术同样如此。工业界真实的识别场景,和学术界数据库是完全不同的。在真实场景应用中,受到摄像头位置、抓拍角度、光线、遮挡物等影响,识别率将会大幅下降。
人脸识别技术中最核心的人脸比对,可分为1:1、1:N以及N:N三种比对场景,目前1:1(对当前人脸与人像数据库的对应人脸数据进行快速比对)是应用落地最广的场景,比如考生身份确认、证照比对以及早前招行ATM机的刷脸取款也是属于这种形式,由于摄像头位置、光线可控,以及能要求用户配合,1:1比对的识别率可达到商业可用的级别。而1:N比对则是从海量的人像数据库中检索当前用户的人脸数据并进行匹配,典型的应用场景是排查犯罪嫌疑人,即监控摄像头抓拍一张人脸后,从海量嫌疑犯人脸数据中检索是否在列。1:N比对目前的核心应用问题是当N很大的时候,需要大量的计算资源,如腾讯云上万象优图2.0产品,将N值最大限制为10000,当N太少的时候大大限制了应用的场景。最后N:N相当于在人像数据库同时检索多张人脸,对计算资源的要求更加严苛,往往会产生很高的错误率从而影响识别结果,目前难以大规模应用。
通过上述介绍我们可以看到,人脸识别技术是一项场景性非常强的领域,在不同场景之间,如证照比对、嫌疑人排查、有配合的1:1识别、无配合1:1识别(即不能要求对象在摄像头前站好,摄像头从隐蔽处抓拍人脸),其应用难点与技术路线有非常大的差别,甚至其核心技术能力不在于算法本身,而在于对场景的深耕研究。
所谓的场景深耕,就是紧密围绕场景需求,以商业上能接受的代价(价格、计算延迟、维护性等),针对场景的特征并大量收集场景数据,不断调试方法或者使用多个方法的组合,走过一轮轮alpha、beta到zeta的版本号,最终实现产品化,其过程并不是一个算法打天下这么简单。
但这里摆在人脸识别技术提供商面前的一道难题是,人脸识别技术自身并很难构成一项单独的应用,必须与其他业务或者产品结合。比如技术+摄像头,成为智能视频监控设备,或者与传统支付产品结合,在密码/手机验证码上再加一层人脸识别验证,类似还有ATM机上增加人脸识别,才能在特定场景中形成具备商用价值的应用。
在上述背景下,人脸识别技术提供商与应用场景之间,存在一定的距离,它们不得不站在其他产品或商业模式的后面,导致缺乏对场景的深入把控,甚至难以获得升级技术赖以为生的场景数据,而缺乏对场景的把控,将导致技术本身难以通过有效的场景深耕而获得质变。最终的结局,有可能就是通过卖License或者卖服务的模式,提供了效果实属一般的算法技术。
人脸识别独角兽公园:谁在冲刺,谁又在假装奔跑?
目前,我们看到了人脸识别技术供应商,纷纷与在安防等领域具备场景纵深的企业深度合作。如商汤科技与老牌安防上市公司东方网力成立合资公司深网视界,利用双方优势推动人脸识别技术在安防产业的落地,另外还有云从科技绑定智慧城市上市公司佳都科技,以及依图科技+传统身份识别领域解决方案神思电子的案例,当然少不了旷视科技自身的阿里系背景,毕竟单靠技术算法本身,在缺乏场景深耕的情况下是难以有所作为的。
通过场景+技术这两个视角,观察人脸识别独角兽公园中各奇珍异兽走向的逻辑就清晰了:第一、是否具备人脸识别应用场景深耕的禀赋,或者能与具备场景的合作方深度绑定?第二,能否在具体场景中取得商业化突破,并反映在具体的销售收入数据上?第三,回归到算法技术,除了CNN等传统计算机视觉技术外,是否能取得技术的突破,比如引入人脸3D信息、多特征融合、或者在1:N/N:N上海量人脸比对场景中更优秀的搜索策略?最后这点可反映在各公司发表的论文主题及质量上。
最后,我们可以为这篇文章的题目下个初步的结论了:通过引入深度学习技术,人脸识别领域近年确实在算法上取得了突破,以前单单凭借fancy的算法人脸识别初创公司往往就能拿到不错的投资,但事实是,人脸识别的工业界应用远未达到成熟,而更尴尬的是人脸识别技术本身难以作为一项独立的产品,需要结合场景去深耕才能获取到识别效果和商业化的突破。在通往奇点的赛道上,人脸识别或许还有很长一段路程去冲刺,如果将这项奇点赛跑看作接力赛的话,那么人脸识别团队的接力棒,才刚从学术界转交到工业界手上,而这一批已经获得了不菲融资的中国本土人脸识别公司,衷心希望他们充分拥抱场景,奋力奔跑。
当然,在这场赛事上还有仍抱着学术界思维、以算法刷榜为荣的假装奔跑者,或许留给他们的时间已经不多了。