阿里巴巴 iDST 首席科学家兼副院长任小枫：最看好计算机视觉在这四大新零售细分方向的应用

作者：刘伟

2017/10/16 21:20

阿里巴巴 iDST 首席科学家兼副院长任小枫：最看好计算机视觉在这四大新零售细分方向的应用

最近一段时间，无人便利店在国内发展得如火如荼，技术方案也各不相同。其中非常核心的技术之一就是计算机视觉。Amazon Go和阿里巴巴的淘咖啡无人超市都是这条技术路线上的领先者，而它们背后都离不开一个人——任小枫。

任小枫曾是亚马逊最高级别的华人科学家，是Amazon Go 的重要策划者之一。他现在的身份则是阿里巴巴 iDST 首席科学家兼副院长，也是阿里无人超市背后的重要力量之一。

10月11日-14日，2017云栖大会在杭州举行，雷锋网奔赴大会现场第一时间进行了跟踪和报道。10月14日的阿里巴巴新零售峰会上，任小枫围绕“人工智能如何在新零售场景下进行应用”这一主题进行了精彩分享。

任小枫开宗明义地指出，新零售是以消费者体验为中心，由数据驱动的泛零售形态。他同时还指出，数据并不是现成的，需要我们花大力气去获取，尤其是在线下场景中，需要通过视觉或其他手段获取有用的信息。因此，新零售本质上是“由信息驱动的”。

计算机视觉作为一种获取信息的通用手段具备很多优势，但同时也存在一些短板。为了让大家更好的理解，计算机视觉发展到了什么样的水平，能够做哪些事情，未来具备怎样的想象空间；任小枫对计算机视觉的发展状况做了详细的介绍。

最后，他还列举了新零售诸多应用场景中他最感兴趣也最看好的4个应用方向：增强现实、智慧门店、机器人、可穿戴设备。

以下是任小枫分享的全部内容，雷锋网做了不改变原意的编辑：

作为一名技术人员，我大多数时间都在思考如何解决实际的技术问题，但有时候也会思考未来是什么样子的。今天就借这个机会跟大家分享一下我的思考。

我在美国工作和生活了很长时间，所以新零售对我来说也是一个谜。如何解开这个谜呢？我看了前段时间阿里研究院关于新零售的报告，里面对新零售做了非常全面的总结：新零售是以消费者体验为中心，由数据驱动的泛零售形态。短短一句话里包含了很多信息。新零售的想象空间比较难以把握，因为它的应用场景非常多，涵盖了批发、零售、物流、娱乐、餐饮等等。不过对它的描述中有几个关键词：体验、数据、泛零售。什么是更好的消费者体验？相信在座各位比我更有想法和经验。我是研究人工智能的，主要研究方向是计算机视觉，我的心得在于如何得到有用的数据。

数据的应用场景很多，涵盖了百货公司、购物中心、便利店，甚至直播、视频、电子商务等等。但无论在哪个场景，买东西的本质都是人和商品。我们需要做的就是理解人，理解物；把人和物联系起来，让用户更好更快地找到他满意的商品，或者更好更快地把商品送到用户手里。

计算机视觉是获取信息的重要手段

要得到关于人和物的信息，尤其是在线下场景中，计算机视觉是非常好的方法。我这样说并非因为我是从事计算机视觉方向研究的，而是因为它本身有本多的优势。摄像机是一种通用手段，通过摄像机可以做很多事情，比如识别人、物、动作。它还是一种非常高信息量的感知方法，现在1080P的视频已经非常普及了，通过1080P的像素可以看到很多东西，而且不用靠的很近就能感知。

而它又是一种被动的方法，很多情况下原因是因为人是用眼睛感知的，所以这个世界实际上是为了我们的眼睛而设计的，从红绿灯也好，标志牌也好，很多商品的包装，很多时候都是为了适应人眼，计算机视觉就是利用了这个世界设计的规律，然后试图用同样的途径来得到更多的信息。

当然，计算机视觉也存在很多缺陷。首先，必须要有光照，只有在比较好的光照条件下才能获得优质的信息。其次，遮挡也是比较大的问题，一旦摄像机被挡住，后面的信息就看不到了。因为我们需要高信息量，所以采用了可见光，但可见光波长很短，无法绕开前面的遮挡物。过去计算机视觉应用的最大问题是精度不够，但最近几年已经有了很大的改善，精度不再是特别大的瓶颈。

计算机视觉的发展状况

下面快速介绍一下当前计算机视觉的发展状况，让大家对我们的技术进步到了什么程度有个更好的了解。

识别物体方面，国际上有一个非常具有影响力的竞赛——物体分类竞赛（ILSVRC）。要给一千个物体的图片打上标签，分辨它究竟是什么。

2012年，深度学习开始在这个问题中得到应用。2012年之后的六年时间里，计算机识别的精度一直在提高。我们可以比较一下机器和人类识别的错误率——有人测试过，人类在解决这个问题时的错误率为5%，这并不意味着计算机超越了人类，因为人类犯错有很多方面的原因。但我们可以说，计算机在某些情况下达到了人类的精度。

计算机视觉要解决的不止“一张图一个物体”的问题，还要处理很多复杂的场景。所以ILSVRC中也设置了物体检测竞赛，让计算机从复杂的场景中找出各种各样的物体。计算机视觉在这个问题上的进展也很快，深度学习只是原因之一。

要做到正确检测物体，就需要有正确地标签和位置。物体检测问题还跟阈值有关，假如把阈值调高，返回的错误结果就会更少一些；假如将阈值调低，返回的结果更多，但也会包含一些错误。

总体而言，现在的MAP平均精度达到了0.75，跟人类相比还有一定差距。但在很多场景中，计算机已经能够做得很好了，比如在下面这个场景中——有人、狗、雨伞和一些比较小的东西，计算机通常都能够检测得到。

再看一下语义分割的例子。在这个问题中，我们需要做的不只是找边框，而是要在每个像素点上标注它到底什么。比如在自动驾驶的例子中，算法可以标记树、车、行人和各种各样可能遇到的物体，目前我们已经达到了不错的精度。我认为，用摄像机做无人车是非常有意思的方向。

计算机视觉可以做很多事情，比如通过多相机跟踪，我们可以识别人的身份，并比较精准地获取他的位置。室内定位有很多方法，比如WiFi、蓝牙、超声波，但它们实现起来都有一定的难度，而计算机视觉可以达到厘米级的定位精度。

很多情况下，我们不仅需要检测某个人的位置，还要估计他的姿态。姿态是我们理解他人意图的基础，可以从中获取很多信息。有了姿态之后，我们还可以在姿态的基础上做一些动作的识别，物体的识别，很多情况下能够识别人的动作。

向前展望一下，未来无论是在室内还是室外场景，夸张点说，人类用眼睛可以做到的事情计算机视觉也能做。几年前我绝对不敢说这句话，但现在算法和其他方面的能力都有了很大的提升，在某些情况下已经非常接近人类了。

但反过来说，对于摄像机拍不到的地方，计算机视觉也无能为力。因此，在解决实际问题时，摄像机的布置是非常重要的，我们需要找到最佳的布置方案，最大程度获取想要的信息。当然，除了摄像机的布置，我们还要考虑数据、计算量、成本等与算法的结合。总而言之，我对计算机视觉是非常有信心的。

再回过头来讨论新零售。前面提到新零售是由数据驱动的，其实可以小小修改一下，表述成“新零售是由信息驱动的”。为什么呢？因为很多时候数据并不是现成的，需要我们花大力气去获取，特别是在线下场景中，需要通过视觉或其他手段获取有用的信息。

四个最看好的应用方向

说完了计算机视觉的技术进展，下面谈谈我非常感兴趣的几个应用方向：增强现实、智慧门店、机器人、可穿戴万能助手。

增强现实

增强现实是现实世界跟虚拟世界的叠加。比如上图展示的，我们买家具时可以拿pad拍摄家具叠加到住宅的图片当中。这个过程涉及几项关键技术，比如三维定位、三维建模、渲染等等。建模和渲染比较简单，定位技术现在也已经比较成熟了。几个月前，苹果公司发布了苹果手机中精准、实时的三维定位功能，其计算量已经达到了实用的程度。解决了三维定位问题后，增强现实技术可以应用到许多场景。

比如，我太太经常叫我去店里买东西，我不知道要找的东西在哪，又不愿意问人，要花很长时间。有了定位技术之后，就可以为店里的商品做一个精准的地图，用增强现实对顾客进行引导。

当然，在上面这个场景中，增强现实并非非常关键的技术。那么，我们接着说虚拟购物。有了增强现实，我们可以将在网上找到的家具叠加到家中，观察大小、搭配和光影效果等等。这项技术现在很多人在做，我们很快就能用到了。

智能门店

下面再跟大家探讨一下智能门店。我以前在亚马逊工作，很幸运在Amazon Go项目开始时加入了这个团队，我们历时四年打造了Amazon Go概念店，我对此感到兴奋和自豪。在Amazon Go中，我们解决了通用场景下的支付问题，做到了“拿了就走，无需排队结账”。虽然只省去了支付环节，但要做到高精度还有很多问题需要解决，比如人、商品和动作的识别问题。我们可以把Amazon Go想象成一个通用的线下智能系统，它包含了一个相机网络，可以做很多事情，比如跟踪人、分析人流，分析顾客的停留时间、有没有拿东西、有没有放回去。如果通过人脸识别的技术与身份结合，门店还能随时知道你是谁，并提供个性化的服务。

支付肯定是未来的一大方向。很多时候我们还会思考在线上比较容易实现的事情，比如分析顾客的停留时间并提供个性化服务。因为现在我们在线下也能做类似的事情。反而有些事情在线上很难实现，比如表情识别。我们在线下可以通过分析顾客的人脸，判断他是高兴、生气还是无聊。所以说，和线上相比，线下说不定真的有一些优势。

在不远的将来，Amazon Go这样的通用线下智能系统可以做很多事情。但应用于一家店铺是一回事，应用于银泰这种拥有很多店铺的大商场又是一回事，难度会再上一个大台阶。此外，要应对比较拥挤的场景，必须在算法和数据上花很大的精力。但总的来说，这已经是可见的事情了。

机器人

第三个提一下机器人，前面提的很多情况下只是感知，只知道那个人在哪里，其实我们可以做一些交互，可以是语音的交互，也可以是显示屏或者视觉上面的交互。从物理的角度来说，我觉得我对机器人还是非常感兴趣的，机器人现在发展也是非常的快，大家其实已经看到了很多的例子。

比如伦敦的送货机器人，我们可以将它和无人车对比。送货机器人的技术和无人车比较相像，都需要对环境有非常精准地标签，要知道路在哪、该在哪里上下台阶、人在哪里，怎么才不会撞到人。很多问题都是相通的，但送货机器人相对简单一些，因为风险没那么大。但是另一方面，送货机器人对成本比较敏感，我们必须选择比较简单的硬件和算法方案。

包括现在很多人在做的无人机，无人机的控制技术已经发展得非常成熟了。宾夕法尼亚大学在无人机控制方面做了很多工作，靠附带的相机无人机就能完成看起来非常复杂的动作。

再举一个Boston的例子，他们做了很长时间的机器人研究，在控制方面做得很好。他们的机器人可以做很多事情，可以在家里行走，做非常复杂的动作。它有腿和手，可以抓取厨房里的杯子。很多人想要一个可以帮自己洗碗洗盘子，或者干其他家务的机器人。要做到这一点还有些距离，但也不是那么遥远。

Boston主要是做控制的，在视觉方面没花太多功夫。不然它就可以识别香蕉皮并避开它，不至于摔倒了。好在它摔倒之后可以爬起来，自己上楼梯。

未来机器人是一个很有意思的发展方向，相信在物流和门店都将有更多机器人投入应用。

可穿戴万能助手

最后一个是万能助手，主要指的是可穿戴设备。

可穿戴设备是个人视角，跟门店不同，它可以记录生活，识别环境，识别其它的人，也可以用来识别自己的动作状态，可以作为一个助手跟你对话，给你提供信息，它其实是有很多事情可以做的。

譬如，Snap Sperctacles 前段时间出了一个比较好的眼镜，可以比较好的记录生活状态。

谷歌好几年前就开始做谷歌眼镜了，但后来没有成功。它后来又推出了企业版，可以在制造和物流等行业帮工作人员做很多事情，比如识别、扫码等。再比如，工作人员在从事比较复杂的接线工作时，谷歌眼镜可以告诉线头该怎么接，这是很实用的。

大概七八年前，我和别人合作过一个可穿戴相机的项目，我负责搜集数据。这个可穿戴相机可以检测到用户在开盒子还是关盒子、手里拿着什么东西。当然，它并不是都能正确识别，因为动作的识别是比较困难的。但我觉得以后我们也能做好第一人称视角的识别，这样的可穿戴相机相对只能识别环境的相机来说拥有很多优势。

大家都知道Hype Cycle曲线。每个新技术、新产品都要经过这样几个阶段：刚开始时大家很兴奋，一拥而上，很快就到达了顶点；接下来就要处理实际问题，曲线开始下行，到达谷底时最现实的问题就暴露出来了，只有知道该怎么解决，才能再逐渐往上走。

增强现实已经经过了谷底，接下来会看到比较多的产品应用。智能门店还处在山顶附近，还有很多问题需要解决，机器人和可穿戴设备则还在更遥远的未来。但刚才曾教授（曾鸣）说了，要想想五年、十年以后，这些领域的前景还是非常令人激动的。

前面提到，在很多应用中，计算机视觉都能起到非常关键的作用。因为它是通用的方法，可以获取人物的动作等很多信息。

当然我们需要去得到相关的数据，很多时候很多算法需要融合，需要跟其它的传感器进行融合。另外，很多时候也不光是感知的问题，我们需要去跟机器人或者其它交汇的方法融合，计算角度来说不见得都在云上或者端上做，云跟端也要融合。

此外，在简单的手势识别、商品搜索、虚拟现实、新制造等方向上，人工智能和计算机视觉也有很多应用的可能性。

现在是一个技术发展非常快的时代，商业发展得也非常快，我非常期待能成为当中的一部分。希望能跟大家一起努力，建设更美好的未来。雷锋网

【计算机视觉基础入门课程（从算法到实战应用】

上海交通大学博士讲师团队，BAT实习背景；手把手项目演示，全程提供代码；从算法到实战应用，涵盖CV领域主要知识点；深度剖析CV研究体系，轻松实战深度学习应用领域！

课程地址：https://www.leiphone.com/special/mooc/05.html

加入AI慕课学院人工智能学习交流QQ群：624413030，与AI同行一起交流成长

算法到实战，如何零基础入门计算机视觉领域

计算机视觉中，有哪些比较好的目标跟踪算法？（下）

计算机视觉中，有哪些比较好的目标跟踪算法？（上）