2018年,3D视觉成为计算机视觉领域的一大风口。
2017年,苹果率先推出了具备3D视觉功能的iPhone X,其“刘海屏”成为众多厂商的仿效对象。而在今年9月,苹果将一口气发布三款带有“刘海屏”的手机。同时,据机构预测,2020年全球智能手机端3D视觉硬件市场规模将到达99.25亿美元,其中苹果手机为31.48亿美元,安卓手机为67.77亿美元。
iPhone有自己搭建起来的软硬件生态系统,以此来支持其3D视觉,那么,安卓手机怎么办呢?3D视觉的机遇和挑战还有哪些?
8月8日,旷视科技联合3D产业中4家企业举办了以“实感世界——真3D就现在”为主题的研讨会,对以上问题进行了深入的探讨。
3D视觉智能手机的风,无疑是iPhone刮起来的。
2017年9月,苹果发布iPhone X,最大的亮点在于Face ID,被吐槽最多的“刘海屏”(原深度摄像头系统)正是用来实现这一功能。在“刘海”区域,苹果塞进了 8 颗传感器,除了麦克风、扬声器、前置摄像头、环境光传感器、距离感应器等我们熟知的部分,还集成了红外镜头、泛光感应元件(Flood illuminator)、点阵投影器。感应器会投射人眼看不见的光,并读取用户的脸部 3D 几何结构图。苹果甚至为此开发了一个神经引擎(Neural Engine),用神经网络处理图像和点阵模式,来建立人脸数学模型。
原深度摄像头除了可以做Face ID,还可以实现脸部动态AR贴纸,以及动态追踪人脸表情的Animoji等。
这个原深度摄像头包含了从基层芯片、算法到应用的全部革新。苹果为了做这个原深度摄像头曾经花了十几亿美金买了十几家公司,包括人脸识别、传感器、算法等公司。在生产过程中也遇到了很多的难题,雷锋网了解到,2016年时苹果就做了四万台iPhone X,但是实际落地的时候发生了很大的问题,所以硬生生拖到了2017年才发布。
苹果在前置的原深度摄像头领跑了所有手机厂商,ARKit也完全解锁了后置摄像头的潜力,甚至超过了早几年就开始布局手机AR的谷歌。苹果能做成ARKit的最大的优势自然是:自己做硬件也自己做软件,能够快速地进行软硬件的适配。
国内厂商做3D视觉则更没法依赖谷歌,需要自己探索。2018年6月19,OPPO发布OPPO Find X机型,搭载了由旷视提供的3D结构光技术;2018年6月27日,vivo在MDC发布TOF 3D超感应技术,由旷视科技提供的3D人脸建模算法支持。目前,旷视和更多厂商达成了合作。
吴文昊回想到为vivo提供解决方案的经历:我们最早接触的是vivo ToF这个项目,当时面临了很多挑战,首先,这其中的生态链和供应链确实太复杂了,项目开会的时候有来自欧洲、资本、美国10多家厂商,涵盖传感器、模组、光电、芯片,做软件的不懂硬件,做硬件的不懂软件,如何把整个产业链串起来是最大的问题。
在这个过程中我们越来越深刻认识到,最后真正的落地一定是应用去驱动。拿刷脸支付举例,应用场景决定了识别的精度、活体攻击的能力防范等。所以算法和软件商其实是这个价值链的最上端,他们可以从上往下去驱动很多细节。
吴文昊介绍到,“手机3D视觉领域虽然已有多种类型的应用案例出来,但该领域包含算法和模组的软硬一体整体解决方案仍是缺位的,旷视科技正在尝试一种从上往下的整合方案。”
由此,旷视发布了“软硬一体移动端智能3D产品解决方案”。包括从3D应用到AI算法、解决方案、传感器、芯片等。
3D应用层:人脸识别解锁、3D人像光效、3D美颜、3D整形、AR游戏、虚拟试穿等;
3D算法:MegBrain深度学习引擎、3D识别/重建算法、人脸识别、活体检测、注意力检测追踪等、人像3D建模、人体3D建模。在这个领域与Bellus 3D、Altizure等企业联合研发;
解决方案:根据不同应用场景中对深度计算、深度修复、深度优化、标定、畸变校正等能力的需求,设计基于双摄、三摄、深摄的解决方案;
硬件模组:摄像头、传感器、芯片等硬件模组的研发,旷视联合艾迈斯半导体等3D硬件模组厂商展开合作,此外,还将联合主要芯片厂商合作研发算法适配性更强的芯片。
此前,在印象中,旷视更多是一家计算机视觉的算法公司,而要做软硬件一体的整合商,旷视如何能形成自己的壁垒呢?
吴文昊告诉雷锋网,首先是公司的定位问题,你想不想从一家算法/软件厂商成为一个软硬一体的解决方案提供商,愿不愿意去做这个改变,其次才是有没有决心找到合适的合作伙伴,把这四层真正垂直整合起来。
旷视要做软硬一体的整合方案,为安卓阵营提供iPhone的3D视觉能力。但是,我们是否就只是为了造出一个iPhone X?这个领域的风口刚刚成型,有哪些机遇和挑战呢?
现场参加讨论的有四家3D视觉企业:Bellus3D、艾迈斯、珠科创新、叠境数字。Bellus3D是一家来自于美国硅谷的移动端3D面部扫描企业,专注于为手机等移动设备提供高解析度的3D人脸扫描、建模技术和产品;艾迈斯半导体是全球领先的先进传感器解决方案设计和制造商,有影像、光学、环境、音频类四大传感器,核心技术之一是VCSEL;Altizure由香港科技大学教授权龙创办,致力于将二维图片还原为三维模型的实景三维全自动重建服务;叠境数字科技由麻省理工大学博士虞晶怡创立,建立了一套以光场采集、处理、显示为核心解决方案。
这四家公司正涵盖了旷视想要构建的软硬一体解决方案的四个层面,从硬件到软件到应用。
苹果发布了iPhone X,耗资巨大,但是现在除了Face ID以外,还没有别的杀手级产品。而吴文昊也一直强调,内容和应用会驱动3D视觉的产业链条发展。
Bellus3D执行总裁Eric Chen介绍了未来3D视觉可能的杀手级应用,包括:
VR里的人脸建模,可以把真实的人脸放进VR游戏里,提升沉浸感。
3D视觉帮助用户选配眼镜,根据人脸的情况做完全的定制化,以后用手机就能配眼镜。
AR试妆、试穿。
吴文昊认为新的杀手级应用有三个层面:
新的硬件形态,手机已经陪伴我们10多年,将来会有新的消费电子产品出现,我认为一定是以3D、AR为主要卖点的产品,这个离我们并不遥远。
3D一定要跟智能化结合起来,AI+3D一定是非常大的杀手级应用场景。现在已经在做这样的事情,像AI Camera拍张照片,我们识别理解这是蓝天,这是草地。加上我们3D的物理信息,一定会做出非常好非常酷的拍照效果。
随时随地的产品,移动互联网展现了随时随地链接上网的魅力,激发了电商、O2O、共享单车,当3D变得无处不在,我们可以随时随地对真实世界进行建模,这是非常酷的一件事情。
在讨论iPhone X时,大家提到的更多是前置摄像头,因为其发展要快一些,但是我们看到后置摄像头也是未来的趋势。叠境科技联合创始人洪煦透露,目前有不少做后置摄像头模组的厂商也找到叠境,我们现在跟旷视有合作,现在是秘密阶段,但是很快会有应用出来。
在后置摄像头这块,先驱自然是谷歌Tango,谷歌Tango配置了能绘制完整3D的硬件和软件,可以精确描绘关于周围环境的3D地图,能让移动设备拥有和人类一样的空间和运动感知能力。Tango开创了基于视觉的3D运动跟踪和场景建模,谷歌为3D跟踪和场景建模设计了传感器和移动计算平台。
然而,想要搭载谷歌Tango这一套解决方案,每家OEM都需要进行特定的传感器校准过程,会增加OEM厂商的成本,当时的应用也不成熟,使得不少厂商都拒绝了谷歌。(延伸阅读:深度 | 手机AR,谷歌为何起了个大早,赶了个晚集)
目前,ARKit和ARCore已经搭载于上亿的智能手机上,AR应用也越来越丰富,现在传感器技术也更加成熟,大家都期待着搭载深度摄像头的后置摄像头出现,能够更好的理解和感知环境,提供更逼真的AR效果。此前,雷锋网曾获悉华为不仅在做前置的深度摄像头,也在致力于后置深度摄像头。
不过,我们现在依然不明晰的是:什么样的AR应用,能够促使大家认为后置深度摄像头是必不可缺的?谷歌Tango的主要应用是解决室内导航的问题,在室内无法使用GPS的时候,不依靠任何外部设备,就能提供设备的定位。这,似乎不是刚需。
这一波的智能手机3D视觉风口,受到了手机AR的影响,但是或许更深层次的是AI的发展。
权龙在雷锋网举办的CCF-GAIR 2018大会上曾分享:计算机视觉下一步将走向三维重建。他谈到:“当下因为深度学习技术的发展,人工智能变得非常火热,计算机视觉作为人工智能的一个领域,也变得异常火热。不过目前计算机视觉的研究和应用主要集中在‘识别’,‘识别’只是计算机视觉的一部分,如果要去做一些交互和感知,必须先恢复三维,所以在识别的基础上,下一个层次必须走向‘三维重建’”
当然,在3D视觉这个方面,深度学习会遭遇全新的挑战,等待行业先行者迎击。
相关文章: