3D视觉成为CV新风口，旷视做了这些来抢占赛道

作者：李诗

2018/08/10 17:35

2018年，3D视觉成为计算机视觉领域的一大风口。

2017年，苹果率先推出了具备3D视觉功能的iPhone X，其“刘海屏”成为众多厂商的仿效对象。而在今年9月，苹果将一口气发布三款带有“刘海屏”的手机。同时，据机构预测，2020年全球智能手机端3D视觉硬件市场规模将到达99.25亿美元，其中苹果手机为31.48亿美元，安卓手机为67.77亿美元。

iPhone有自己搭建起来的软硬件生态系统，以此来支持其3D视觉，那么，安卓手机怎么办呢？3D视觉的机遇和挑战还有哪些？

8月8日，旷视科技联合3D产业中4家企业举办了以“实感世界——真3D就现在”为主题的研讨会，对以上问题进行了深入的探讨。

旷视的3D视觉软硬件一体方案

3D视觉智能手机的风，无疑是iPhone刮起来的。

2017年9月，苹果发布iPhone X,最大的亮点在于Face ID，被吐槽最多的“刘海屏”（原深度摄像头系统）正是用来实现这一功能。在“刘海”区域，苹果塞进了 8 颗传感器，除了麦克风、扬声器、前置摄像头、环境光传感器、距离感应器等我们熟知的部分，还集成了红外镜头、泛光感应元件（Flood illuminator）、点阵投影器。感应器会投射人眼看不见的光，并读取用户的脸部 3D 几何结构图。苹果甚至为此开发了一个神经引擎（Neural Engine），用神经网络处理图像和点阵模式，来建立人脸数学模型。

3D视觉成为CV新风口，旷视做了这些来抢占赛道

原深度摄像头除了可以做Face ID,还可以实现脸部动态AR贴纸，以及动态追踪人脸表情的Animoji等。

这个原深度摄像头包含了从基层芯片、算法到应用的全部革新。苹果为了做这个原深度摄像头曾经花了十几亿美金买了十几家公司，包括人脸识别、传感器、算法等公司。在生产过程中也遇到了很多的难题，雷锋网了解到，2016年时苹果就做了四万台iPhone X，但是实际落地的时候发生了很大的问题，所以硬生生拖到了2017年才发布。

苹果在前置的原深度摄像头领跑了所有手机厂商，ARKit也完全解锁了后置摄像头的潜力，甚至超过了早几年就开始布局手机AR的谷歌。苹果能做成ARKit的最大的优势自然是：自己做硬件也自己做软件，能够快速地进行软硬件的适配。

国内厂商做3D视觉则更没法依赖谷歌，需要自己探索。2018年6月19，OPPO发布OPPO Find X机型，搭载了由旷视提供的3D结构光技术；2018年6月27日，vivo在MDC发布TOF 3D超感应技术，由旷视科技提供的3D人脸建模算法支持。目前，旷视和更多厂商达成了合作。

3D视觉成为CV新风口，旷视做了这些来抢占赛道

吴文昊回想到为vivo提供解决方案的经历：我们最早接触的是vivo ToF这个项目，当时面临了很多挑战，首先，这其中的生态链和供应链确实太复杂了，项目开会的时候有来自欧洲、资本、美国10多家厂商，涵盖传感器、模组、光电、芯片，做软件的不懂硬件，做硬件的不懂软件，如何把整个产业链串起来是最大的问题。

在这个过程中我们越来越深刻认识到，最后真正的落地一定是应用去驱动。拿刷脸支付举例，应用场景决定了识别的精度、活体攻击的能力防范等。所以算法和软件商其实是这个价值链的最上端，他们可以从上往下去驱动很多细节。

吴文昊介绍到，“手机3D视觉领域虽然已有多种类型的应用案例出来，但该领域包含算法和模组的软硬一体整体解决方案仍是缺位的，旷视科技正在尝试一种从上往下的整合方案。”

由此，旷视发布了“软硬一体移动端智能3D产品解决方案”。包括从3D应用到AI算法、解决方案、传感器、芯片等。

3D视觉成为CV新风口，旷视做了这些来抢占赛道

3D应用层：人脸识别解锁、3D人像光效、3D美颜、3D整形、AR游戏、虚拟试穿等；

3D算法：MegBrain深度学习引擎、3D识别/重建算法、人脸识别、活体检测、注意力检测追踪等、人像3D建模、人体3D建模。在这个领域与Bellus 3D、Altizure等企业联合研发；

解决方案：根据不同应用场景中对深度计算、深度修复、深度优化、标定、畸变校正等能力的需求，设计基于双摄、三摄、深摄的解决方案；

硬件模组：摄像头、传感器、芯片等硬件模组的研发，旷视联合艾迈斯半导体等3D硬件模组厂商展开合作，此外，还将联合主要芯片厂商合作研发算法适配性更强的芯片。

此前，在印象中，旷视更多是一家计算机视觉的算法公司，而要做软硬件一体的整合商，旷视如何能形成自己的壁垒呢？

吴文昊告诉雷锋网，首先是公司的定位问题，你想不想从一家算法/软件厂商成为一个软硬一体的解决方案提供商，愿不愿意去做这个改变，其次才是有没有决心找到合适的合作伙伴，把这四层真正垂直整合起来。

智能手机3D视觉的机遇与挑战

旷视要做软硬一体的整合方案，为安卓阵营提供iPhone的3D视觉能力。但是，我们是否就只是为了造出一个iPhone X？这个领域的风口刚刚成型，有哪些机遇和挑战呢？

3D视觉成为CV新风口，旷视做了这些来抢占赛道

现场参加讨论的有四家3D视觉企业：Bellus3D、艾迈斯、珠科创新、叠境数字。Bellus3D是一家来自于美国硅谷的移动端3D面部扫描企业，专注于为手机等移动设备提供高解析度的3D人脸扫描、建模技术和产品；艾迈斯半导体是全球领先的先进传感器解决方案设计和制造商，有影像、光学、环境、音频类四大传感器，核心技术之一是VCSEL；Altizure由香港科技大学教授权龙创办，致力于将二维图片还原为三维模型的实景三维全自动重建服务；叠境数字科技由麻省理工大学博士虞晶怡创立，建立了一套以光场采集、处理、显示为核心解决方案。

这四家公司正涵盖了旷视想要构建的软硬一体解决方案的四个层面，从硬件到软件到应用。

苹果发布了iPhone X,耗资巨大，但是现在除了Face ID以外，还没有别的杀手级产品。而吴文昊也一直强调，内容和应用会驱动3D视觉的产业链条发展。

Bellus3D执行总裁Eric Chen介绍了未来3D视觉可能的杀手级应用，包括：

VR里的人脸建模，可以把真实的人脸放进VR游戏里，提升沉浸感。
3D视觉帮助用户选配眼镜，根据人脸的情况做完全的定制化，以后用手机就能配眼镜。
AR试妆、试穿。

吴文昊认为新的杀手级应用有三个层面：

新的硬件形态，手机已经陪伴我们10多年，将来会有新的消费电子产品出现，我认为一定是以3D、AR为主要卖点的产品，这个离我们并不遥远。
3D一定要跟智能化结合起来，AI+3D一定是非常大的杀手级应用场景。现在已经在做这样的事情，像AI Camera拍张照片，我们识别理解这是蓝天，这是草地。加上我们3D的物理信息，一定会做出非常好非常酷的拍照效果。
随时随地的产品，移动互联网展现了随时随地链接上网的魅力，激发了电商、O2O、共享单车，当3D变得无处不在，我们可以随时随地对真实世界进行建模，这是非常酷的一件事情。

在讨论iPhone X时，大家提到的更多是前置摄像头，因为其发展要快一些，但是我们看到后置摄像头也是未来的趋势。叠境科技联合创始人洪煦透露，目前有不少做后置摄像头模组的厂商也找到叠境，我们现在跟旷视有合作，现在是秘密阶段，但是很快会有应用出来。

在后置摄像头这块，先驱自然是谷歌Tango，谷歌Tango配置了能绘制完整3D的硬件和软件，可以精确描绘关于周围环境的3D地图，能让移动设备拥有和人类一样的空间和运动感知能力。Tango开创了基于视觉的3D运动跟踪和场景建模，谷歌为3D跟踪和场景建模设计了传感器和移动计算平台。

然而，想要搭载谷歌Tango这一套解决方案，每家OEM都需要进行特定的传感器校准过程，会增加OEM厂商的成本，当时的应用也不成熟，使得不少厂商都拒绝了谷歌。（延伸阅读：深度 | 手机AR，谷歌为何起了个大早，赶了个晚集）

目前，ARKit和ARCore已经搭载于上亿的智能手机上，AR应用也越来越丰富，现在传感器技术也更加成熟，大家都期待着搭载深度摄像头的后置摄像头出现，能够更好的理解和感知环境，提供更逼真的AR效果。此前，雷锋网曾获悉华为不仅在做前置的深度摄像头，也在致力于后置深度摄像头。

不过，我们现在依然不明晰的是：什么样的AR应用，能够促使大家认为后置深度摄像头是必不可缺的？谷歌Tango的主要应用是解决室内导航的问题，在室内无法使用GPS的时候，不依靠任何外部设备，就能提供设备的定位。这，似乎不是刚需。

这一波的智能手机3D视觉风口，受到了手机AR的影响，但是或许更深层次的是AI的发展。

权龙在雷锋网举办的CCF-GAIR 2018大会上曾分享：计算机视觉下一步将走向三维重建。他谈到：“当下因为深度学习技术的发展，人工智能变得非常火热，计算机视觉作为人工智能的一个领域，也变得异常火热。不过目前计算机视觉的研究和应用主要集中在‘识别’，‘识别’只是计算机视觉的一部分，如果要去做一些交互和感知，必须先恢复三维，所以在识别的基础上，下一个层次必须走向‘三维重建’”

当然，在3D视觉这个方面，深度学习会遭遇全新的挑战，等待行业先行者迎击。

苹果iPhone X 发布，第一部人工智能意义上的手机

深度 | 手机AR，谷歌为何起了个大早却赶了个晚集？

旷视科技首席科学家孙剑：如何打造云、端、芯上的视觉计算（含30张 PPT） | CCF-GAIR 2018