专访阿里iDST华先胜：CV行业遍地黄金，只可惜创业者都去红海厮杀，却忽视了蓝海

作者：老王

2017/05/31 20:12

虽然从学术和研究氛围浓厚的微软亚洲研究院出身，且获得过微软多项重大技术突破创新奖，但华先胜心里很清楚，算法在商业化落地中所扮演的角色并不是核心要素。

“算法在高手之间的差异其实很小，壁垒的形成是建立在熟悉业务和场景的基础上。很多你认为跟你八竿子打不着的传统行业和方向，没准就有机会。”

从早已奠定自己江湖地位的微软亚研转战到阿里巴巴，这一决定的背后是他对深入业务和解决商业痛点的憧憬。

整个采访过程中，阿里iDST视觉计算组负责人华先胜不止一次提到CV行业遍地是黄金，可惜的是创业者总喜欢扎堆在几个红海领域。究其原因是对业务不了解所致，从业者甚至抱有做一个识别率很高的通用 API 就能吃下所有行业的幼稚想法，在算法上打磨了太多时间。

专访阿里iDST华先胜：CV行业遍地黄金，只可惜创业者都去红海厮杀，却忽视了蓝海

华先胜，北京大学应用数学博士、IEEE Fellow、ACM2015年度杰出科学家、MIT TR全球35位35岁以下的杰出青年创新人物，曾担任ACM Multimedia等大会程序委员会主席，是视觉识别和搜索领域的国际级权威学者。于2016年7月加入阿里人工智能研究机构iDST科学家团队，带领视觉计算团队的研发工作。

雷锋网：谈一谈你们最近在做哪些商业化落地项目？

目前阿里iDST视觉计算组主要集中在三个方向的布局：分析识别、视图搜索、合成。通俗讲就是认物体、找物体、生成物体。

城市大脑中的“城市之眼”是商业化落地的重要项目之一。

一级城市中大概布置了几十万个摄像头，单个摄像头每天产生非常大的视频数据，但是这些数据发挥的价值其实比较有限。

因此，阿里通过城市之眼观察车、人、非机动车，利用视觉计算统计出车量、车型、车牌、车长、速度、行驶路径、行人等信息。做好城市数据收集后会建立一个索引，具体落实到实际应用上，可寻找走丢的儿童、肇事车查找等。

过去在视觉技术较弱的情况下，只能通过笨重的手段获得一些粗略的车辆信息：如通过GPS获取采样数据；在路下掩埋地感线圈，根据车身压力进行计数。无论GPS还是地感线圈其实对车辆的信息收集有限，而且地感线圈经常会出故障。

阿里云城市大脑要做的事情是把整个城市数据汇集，完成对城市事故、事件的认知：知道哪里堵车，哪里有车祸，分析后迅速发出红绿灯控制和关闭路口的指令，以及预估事故、事件对交通接下来产生的影响。

这些数据收集和处理都在云端运行，云端不仅可进行复杂、前沿的计算，而且在云计算平台可完成多种任务：大到交通治理，小到红绿灯控制。与此同时，计算力也容易去调整。

但如果放在摄像头端做，计算力明显会变弱。

雷锋网：哪些流程放在端上做会更合适？

我个人觉得质量增强和简单的结构化可以放在端上，非常精细的分析放在前端会有一些局限，尤其是算法更新速度极快的今天，如果很多智能功能要嵌入在摄像头端，得把所有软体刷新一遍，工作量巨大且不见得所有硬件会支持。

除此之外，摄像头端也没有能力把多方位的城市数据及时汇聚起来做决策。

雷锋网：如果把所有计算都放在云端去做，如何协调好计算量、计算效率、成本之间的关系？

计算是我们要解决的核心问题之一，怎样才能拥有较高的计算效率，阿里在这上面投入了很大力气。

第一要有计算平台的支持，该平台要让项目做起来更加高效，要能容错；其次是云计算平台又需要大量的计算机器资源；最后是算法本身。

由于我个人主攻算法，因此我更加看重算法对计算的优化。过去处理一路视频，需要一台电脑的二十四个核全部运行才能搞定，我当时的目标是看能不能降到十个核、八个核甚至一两个核完成。截止到目前为止，我们利用算法提升了20倍对计算的优化。

此外，改进深度学习的方法很多。首先可在机器指令集上进行优化工作，其次也可在CPU和GPU层面优化。算法本身的优化，较为常见的是优化神经网络结构。由于神经网络中集成的计算量相当大，因此我们需要考量能不能把大模型在不损失性能的前提下压缩为小模型，小模型能不能剪一剪。

雷锋网：如何打通城市大脑专有云与公安系统的底层基础设施和硬件设备的？

这方面确实很重要，很多公司认为只要把算法做好就万事大吉。其实做好解决方案，有很多工作看上去与算法没有任何关系，尤其在流程打通方面。

我们以红绿灯和摄像头控制为例。红绿灯本身就可以用编程控制，城市大脑根据交通状况计算出这些设备应该怎么调控，然后向交通部门发送指令，让对方进行操作。

其次是摄像头，由于摄像头的型号和产品功能各不相同，球机有预置位，枪机没有。我们要用程序打通球机，从多个位置控制监控。而有时候部分球机没有预置位，因此建立虚拟预置位的问题我们又得找集成商去解决。

为了让系统更加智能化，公安也有动力去更新底层的基础设置和硬件。因为很多时候设备已经阻碍了整个项目的发展，打通流程需花费很多人力和财力，而且在功能实现上受到了不少限制。

雷锋网：识别出车牌号码基本上能确认车辆信息，但问题是摄像头能捕捉到人脸吗？

在特殊环境下，车牌号不一定完全能看清，而且很多车牌是套牌。在系统里搜索一辆车得在整个数据库里综合各种特征来判断。

我们的车辆识别其实采用了不少拍立淘的以图搜商品技术，所以在这块的积累已经比较成熟。同时也在使用最近比较火的 GAN 来生成大量以假乱真的车牌数据去做训练，效果非常可观。

回到人脸问题上，现在大部分摄像头对人脸的捕捉无能为力，除了在布控上专门搭建的人脸摄像头能够看得到外，电子杆上布置的摄像头是看不到的，所以通常情况下更多是对整个人的身体进行检测和识别。

这就会涉及到识别准确率问题，关于人物搜索，也不见得一定要把目标对象找出来，机器筛选出10到100个人的范围就已经很了不起了，虽然不知道是筛选结果范围中的哪一个，但已经可帮助公安节省很多人力。

学术圈也好、工业界也罢，经常会看到准确率高达百分之九十九点几的数字，其实真实场景比这残酷的多。

在真实场景下，有些问题都是小概率事件，不需要识别率如此准确，但需要 recall 做得非常高。举个简单的例子，在一万个样本中，如果有十个目标对象是你要找的，从数字上来看它的概率非常低，如果10个搞不定那他肯定在100个里。这时候他的召回为100%，准确率为10%。10%的准确率有没有用呢？非常有用。如果不用这种方法的话，得把这1万个样本全都看一遍。

本来让交警看一个星期才能完成的任务，现在只需一个交警看一个小时就能解决，这很了不起。

雷锋网：除了安防外，你们还在哪些方向会重点布局？

目前做智能摄像头视觉解决方案的公司，之间其实并不会有太大的技术差异，更多体现在体验上。

很多创业公司都在做人脸，我个人并不建议创业公司都一窝蜂争进入这个市场，CV行业有很多蓝海和遍地黄金的机会。

以医疗为例，我们近期也投身做肺结节影像分析的相关工作。

在提出要做肺结节影像分析时，很多人无法理解。围观者一方面认为医生比机器强太多，无需机器辅助。第二是医生会对产品有抵触，因此并不会接受这类技术。

在深入医院经过一系列调研后，我发现无论医生自身需求也罢，还是市场需求也罢，机器都有它存在的意义。以肺结节 CT 为例，通常情况下医院里比较密的切片CT影像大小达三四百兆。一个医生如果认真看下来需要半小时，如果利用算法分析，只要计算能力足够则会瞬间完成。

机器分析影像有两点优势：第一是速度，它可以很快得到一个参考结果。其次是遗漏率低，我们可以把 Recall 设高，把 Position 降低。

当数据量积累到一定程度时，计算机可以把多维度、连接的信息综合起来去分析病理。医生的资历得益于他的学识和临床经验的积累，而数据可以看作是学识和临床经验。

医疗影像最需要解决的无疑是带标注的高质量数据，而标注环节唯独医生等专业人员才能标注。那么如何获得高质量的标注数据？为此，阿里云与体检公司合作，体检公司的数据往往比较容易获得，而且他们也正好有机器辅助分析的需求。

雷锋网：还有哪些不起眼、但有一定商业潜力的市场？

除了安防和医疗外，确实会有不少看起来是长尾不起眼，但市场潜力不小的场景。

我们最近在做一个为火车检修的项目。我们知道，火车对安全要求极高，交通部门非常重视，在这上面的投入也比较可观。

火车检修最早期需要人的肉眼去观察，甚至通过敲敲打打听音色这种很原始的方式来判断器械是否有故障隐患。近些年铁路局逐渐开始用工业相机拍摄照片的方式代替人工上去检查，通过在高压线和铁轨位置安装工业相机拍摄大量高清图片，然后让员工坐在办公室看图片。

把最初让人工去日晒雨淋的现场观察改进为坐在办公室看图片，这也算不小的进步。但是人眼观察图像又成了一件非常繁琐的事，容易漏查。

这时候用图像识别方案代替人眼做分析无疑会节省不少人力。

同样，也可用图像识别的方法分析工业相机所拍摄的残次品、电路板差错问题。

人工智能还是一个初步阶段，很多传统行业远未开发，其中很多你认为跟你八竿子打不着的行业和项目，没准就有机会。之前有朋友跟我聊天，他说到煤矿里运煤的传输带一老化就会出事故。我想了想，其实完全可以架工业相机对传输带进行拍照，然后利用图像识别系统分析有没有出现老化的迹象。及时拍摄、实时上传到云端做分析、实时反馈结果、如有问题实时报警。智能化的流程不仅可替代部分人力，而且会把实效性和准确性提升至更高的维度。

雷锋网：前段时间依图科技朱珑提到这样一个观点，他说人工智能的商业化最终取决于这个领域最强的那个人。您怎么看？

朱珑的一些观点我是不同意的，当时现场我也问了他不少问题，但朱珑没有正面回答。当然，这些问题我自己心理都是有答案的。

在谈到到底哪些因素促成人工智能的应用和商业化，我觉得有很多因素，但最重要的是深入行业和场景，这一块是大家最为薄弱也是积累最浅的地方。

小公司和大公司之间的对比一直是人们津津乐道的话题，AI行业也是。对于小公司而言，深入行业是突围的关键。

人们喜欢谈论算法的竞争，其实算法的门槛在高手之间差别很小，我再强调下这句话：算法的门槛在高手之间差别很小。聪明人到处都是，聪明这件事很难形成壁垒。重要的应该是把行业和业务搞清楚，人们往往容易忽略业务问题，这其实不是件容易事。

医疗门槛为什么高？因为你很难深入去了解它。

阿里云本身就有CBM这样的销售团队，他们会向我们反馈客户各种各样的需求。然后云架构师、数据架构师根据需求会从系统存储、计算平台、AI算法等方面去考虑解决方案该如何搭建，然后向各个技术部门提出研发需求。

雷锋网：深入业务时具体要接触哪些人？

首先一定要与处于业务一线的人员进行长期沟通。医疗项目找医生，安防项目找交警。

医疗影像项目你要沟通的影像科医生，要去了解他们是怎么看片子的，以及医生有哪些痛点急需解决。而像安防项目，我会花更多时间去跟处于一线的公安执勤人员聊，而非公安系统的技术人员。

雷锋网：你们是如何发现和挖掘客户需求？

阿里有很多客户，客户们如果发现阿里云的视觉方案在其他场景下做成功了，这时候他们就会找上门来提出他们的需求。客户如果没有提出某些需求时，我就自己去挖掘。

当发觉什么东西有意思时就会根据已有的技术做尝试，同时也会与 DEA 和 CBM 一起聊，把技术介绍给他们，以便在接触客户时如遇到合适的客户需求，可进一步推动方案的完善。

当然，发现需求是一件举步维艰的事，需要深入行业去探索，而且经常会失败。

在我们接到的众多需求里，有些需求看上去是个痛点，但开发后发现它并不是一个正确的问题，无法为客户带来真正的价值，让我们走了不少弯路。

但这是必然，正确的需求和落地场景是靠不断试错得出，而非空想而来。

创业公司也会遇到相似的情况，他们不断转变自己的应用方向，甚至改变技术方向。究其原因是因为没找准需求导致，而非遇到了技术难题无法突破才选择转型。

当然还有些场景现在看不到机会，但随着时机的成熟，未来或许会有，我们也会主动提前去布局此事。

雷锋网：方不方便透露几个您觉得在未来商业潜力较大，但很多玩家还没发觉的场景？

我只能说下我们正在重点布什么局。

其中视频搜索是一个，包括结构化打标、相似性搜索。视频这个题目 20 年前就开始做了，但因为很多时机、技术、数据问题，一直没落地。此外，图像搜索在上个世纪也开始做了，我也曾经觉得是时候把它做出来，但却看不到落地的场景。直到我发现电商中的图像搜索才是机会时，于是我来到阿里。现在随着时机的不断成熟，其他商业场景也不断开始崭露头角。

其次是在视频里做广告也大有前景，虽然十年前就有相关论文了，但一直没落实到位。

雷锋网：但我个人认为用户并没有在视频里买商品的习惯。

你指的是Video Out：在视频里点击商品旁边的购买链接购物。其实广告的形式不止Video Out，Video Out这种广告方式确实会有很大的阻碍和挑战。从用户体验角度讲，在视频里点击链接购物是否是正确的需求还有待商榷。

我认为在视频中应该用植入的方式做广告，在不影响体验的前提下，潜移默化地对用户产生影响。比如在视频里找到可以嵌入广告的地方，不管是张贴画广告还是物品广告。这个是张贴画，这个左边是原来的视频，右边是我们植入的图像。

雷锋网：CV落地传统行业，您觉得最难解决的问题是什么？

我认为，一个成功的人工智能应用，应该具备五个条件。

第一个是算法。你要有好的算法，你的算法要有先进性，你的算法不行一切都没有了基础。（当然你也可以把算法这一个条件看做是科学家，因为人才和算法是紧密相连的）。

第二个是要有数据。数据本身就是一个很大的话题，里面有数据的采集、搜集、清洗、有效的标注，甚至包括算法里面数据怎么使用。

第三个是用户。你做的这个东西应该有用户的，因为有很多问题是需要用户参与才可以做得越来越好。当然你从商业的角度来讲，没有用户的话也不能够长久。用户本身是数据的消费者，也是数据的提供者，这过去在搜索引擎里面有非常重要的体现，可以说搜索引擎的技术能够做那么好，每个人都有contribution的。

第四个就是平台。这个就是涉及到你要有强大的计算能力和一套体系架构，能够方便地去研发、部署和生产，这一套是必须要有的。当然现在因为有云计算，所以这部分的瓶颈，对于很多企业来讲已经没有过去那么困难了。

第五个就是有好的商业模式。如果没有好的商业模式，就不可能长久。你做一个事情，低频的事情没有多少人用，或者不能给少量用户带来大的价值，最后产生的总体价值不够的话，其实是很难长久的。这几点，我个人觉得其实是都应该具备的。当然了，可能不同的商业应用，应该来说可能有不同的侧重，但是我觉得都应该具备。

雷锋网：我用一句比较俗的话阐述，目前计算机视觉似乎并不能赚大钱。您觉得是因为没找到合适的场景，还由于CV本身就不是盈利的有效工具？

我觉得现阶段需要找到更合适的场景才行，不要把项目放在实验室里，也不要觉得一个就能 API 打天下。一定要深入场景，根据客户的业务去考量自己的技术能为客户创造哪些价值。

客户懂业务，但不见得他们很懂技术。我们做技术的自身对技术很了解，知道什么时候work什么时候不work，但对业务场景的了解非常有限。

每个计算机视觉从业者都应该明确自己工作的重点到底是“提高客户的工作效率，还是提高准确率的百分比”，如果连这个问题都想不清楚，肯定会出问题。