“AI好青年”肖健雄：榨干摄像头性能，渐进式实现自动驾驶

自动驾驶 AutoX CV 计算机视觉

作者：易建成

2017/08/03 16:15

“AI好青年”肖健雄：榨干摄像头性能，渐进式实现自动驾驶

「如何看待肖健雄离开普林斯顿大学去创业?」答案不言而喻，「学而优则商」已是计算机视觉圈（或泛人工智能圈）习以为常的事情。

因此有人总结学术界大牛从商之路的三种选择：一是教授被工业界挖走，带领各个大公司的研究院；二是有着极强技术背景的学生在毕业后或经过短暂的职业生涯后联合几个志同道合的同学（或朋友）共同创业；三是教授从高校离职，创立自己的公司。

毫无疑问，肖健雄属于第三条路径。

X 教授创立 AutoX

肖健雄是 MIT 人工智能实验室的博士。创业前，他是学术圈里的明星人物，周围的朋友和同事喜欢称他为 Professor X（「X 教授」）。

在学生时代，肖健雄曾先后获得包括 ECCV（欧洲计算机视觉会议）、Google Research 在内的最佳论文奖等。2013 年从 MIT 毕业后，他在普林斯顿大学计算机系担任助理教授，后创办了普林斯顿大学计算机视觉和机器人实验室（Computer vision and robotics lab）。

在他的个人网站上，肖健雄是这样介绍自己的：在计算机视觉，自动驾驶和机器人技术方面有十多年的研究和工程经验，也是 3D 深度学习、RGB-D 识别和地图、大数据、机器人深度学习等领域的先锋。

有了这样的背景，又是华人创业者，这让他很快成为驻扎在硅谷的中国资本追捧的对象。

去年 6 月，当他离开普林斯顿大学决定要去创业时，外界便好奇：「X 教授」会创立一个什么样的公司？「教授创业一定紧密扎根自己的学术成果。所以我想健雄老师公司的关键词也多半和 Deep Learning（深度学习）、Vision (尤其是 3D vision) 紧紧相关。」曾有人这样猜测。

最终，肖健雄创办的 AutoX 向外界揭晓谜题——这是一家为自动驾驶汽车提供软件（包括感知、决策和控制）解决方案的科技公司。

凭借在学术界的名声，肖健雄目前已为 Auto X 招来 20 余人，他们大部分来自美国顶尖高校：MIT、斯坦福大学、伯克利，并曾经在微软、Facebook、苹果、Magicleap 以及本田有过工作经验。

「自动驾驶并不是奢侈的」

「为什么是（选择）自动驾驶？」今年 5 月，在 TiEcon 2017 上，肖健雄在演讲上回答了这一问题。

他说，自动驾驶是一个「让人兴奋的领域」。回顾过去几十年在科技领域发生的变革，从个人电脑、互联网再到智能手机，几乎改变了每个人的生活。而未来三十年能改变每个人生活的将会是自动驾驶汽车。

更让他「超级兴奋」的是，自动驾驶是他所擅长领域（计算机视觉和机器人）的大规模应用。

在自动驾驶的生态系统中，参与者有汽车厂商、Tier1、芯片公司、出行服务公司等等，肖健雄指出，要将自动驾驶生态打通，需要一个非常好的 AI 软件平台——这是 AutoX 可以施展拳脚的地方。

在自动驾驶的世界里，特斯拉是为数不多使用基于摄像头的方法来实现全自动驾驶的公司。在特斯拉第二代 AutoPilot 硬件上，特斯拉希望通过 8 个摄像、前向雷达、超声波雷达和 GPS 数据来实现全自动驾驶。没有激光雷达，这是特斯拉与主流自动驾驶公司最大的区别。

“AI好青年”肖健雄：榨干摄像头性能，渐进式实现自动驾驶

但 AutoX 选择了一条比特斯拉更激进的方式。

今年 3 月，AutoX 拿到加州 DMV 颁发的自动驾驶路试牌照，随后这家公司对外公布了一段在不同天气下的自动驾驶路测视频。

“AI好青年”肖健雄：榨干摄像头性能，渐进式实现自动驾驶

值得注意的是，这辆改造自林肯 MKZ 的原型车并没有搭载诸如激光雷达、毫米波雷达、超声波雷达、差分 GPS 等传感器，取而代之的是总成本不到 500 美金的 7 个摄像头——这相当于一台智能手机的价格。

肖健雄想要解决的问题，正击中自动驾驶领域痛点——造价高昂的传感器无法快速将科研成果商业化。其中一个例子是，在谷歌分拆出来的自动驾驶公司 Waymo 长达 10 年的研究中，最大的一个进展是将传感器价格降低由原来的 75000 美元降低到 7500 美元。

在 TiEcon 2017 上，肖健雄说：「AutoX 的使命是使自动驾驶技术平民化，自动驾驶并不是奢侈的，而是人人都能享受到的技术。」

「Make AI stronger，make software better」

摄像头的好处是，即使是非常低端的摄像头，依然有较高的分辨率。摄像头对物体的识别包括交通灯的识别非常清晰。当然，这一方案的最大优势是硬件成本非常低并且易于集成。

但问题是，目前仅仅依靠纯视觉方案可靠吗？肖健雄答：「Make AI stronger，make software better.」（让 AI 更强，让软件更好。）

听完他在 TiEcon 的演讲后，台下一位观众评价：AutoX Jianxiong Xiao has more faith in camera-based rather than sensor-based autonomous driving.（肖健雄对基于摄像头而不是基于传感器的自动驾驶更有信心。）

作为新创公司，AutoX 目前的收集的数据还不够多，不足以让其系统做出更好的决策。未来，AutoX 希望打造一个自动驾驶车队来收集更多数据并不断完善这一解决方案。

今年 7 月，在 CVPR（国际计算机视觉与模式识别会议)的现场，雷锋网与肖健雄博士聊了聊 AutoX 的新动向以及他关于自动驾驶的思考。以下是对话实录（有删减）：

雷锋网：介绍 AutoX 的最近情况，比如团队规模、最近计划。

肖健雄：最近增长到大概 20 多个人，增长速度可能没有其他公司那么快，我们喜欢把最好的人招进来。我们招人依旧是两个标准：又红又专，就是专业技能非常强大，又特别注重 Teamwork。

目前有一些计划但不方便透露。我们可以说的是会在 2 年内将产品推向市场，让用户可以用到。

雷锋网：AutoX 的方案是舍弃激光雷达、差分 GPS ，使用汽车前端的 7 个摄像头，这样成本也很低。但从安全性的角度说，你们是如何考虑的？如果只用摄像头可以做到什么样水准的自动驾驶？遇到恶劣天气、逆光等极端情况，如何应对？

肖健雄：我们从来没有说要放弃安全性，但很多人就把安全性当成一个不努力做视觉的借口。

安全性并不是说物理世界信息不足，而在于软件要足够好。我觉得在理论上绝对可以靠 Camera 做到非常安全。只要有所投入，在这个领域花更多精力，跑出来的效果并不会差。

恶劣天气和逆光主要靠提高算法的鲁棒性，提高数据级，当然相机也不能太差。基于这个前提，其他就是拼软件了。

雷锋网：你是否觉得视觉可以解决自动驾驶一切问题？

肖健雄：我觉得长远来说，肯定可以解决自动驾驶一切问题，问题是这个时间我们是否有耐心等待，比如说花 10 年、20 年实现完全无人驾驶。

我们从来不排斥其他传感器，也不排斥其他技术，只是说专攻在相机上。我们的论点是：大家太小看相机了，导致没有努力把它的功能提高。它还有很多油水可「榨」，只是大家没有努力「榨」而已。

雷锋网：你之前演讲说要打造「自动驾驶大脑」，这个「大脑」是怎样的？

肖健雄：自动驾驶大脑有点像操作系统，往大说，比如 Windows；往小说，比如 Linux Kernel 的核心代码。

我们现在做的是最核心的 kernel，包括感知和决策两个模块。我们把 kernel 搭建好，然后在这个基础上加上其他传感器、其他服务层。

雷锋网：现在很多公司目标是做 Level 4 级别的自动驾驶技术，目标是非常远大的，但离落地产业化很远，你如何看待这一级自动驾驶的商业化问题？

肖健雄：我觉得大公司像谷歌可以这样玩，因为它有足够多的钱，但绝大部分的创业公司不行。初创公司每一到两年需要融资，然后没赚到一分钱，我觉得这是不健康的方式。

我一开始为什么选择 Camera ，因为激光雷达在将来 10 年后才可能很便宜，但两到三年后可以便宜吗？绝对便宜不了，没那么快的。

雷锋网：你觉得在无人驾驶这个领域，创业者或后来者还能从中找到哪些机会？

肖健雄：我觉得要做得有特色，比如集中在 niche market（小众市场）。没有特色、大而全，就做 Level 5，十几年后才赚到钱，我觉得基本没有机会，也没有办法生存。

这与普通初创公司并不一样，比如滴滴或 Uber，做一个 App、搭建一个服务器就可以开始了，然后大家集中火力干 6 个月，短期内就能占领市场，取得很好的成绩。

但自动驾驶不是这样的，即使我们集中火力干 6 个月，还是不能实现全自动驾驶。这不是钱可以解决的问题，而是需要更多技术积累。

所以我更看好渐进式的路径，先辅助驾驶，然后再升级，我觉得这是有道理的。绝大部分汽车厂也是这样，他们不会马上就实现自动驾驶，消费者就能买上这样一辆汽车。

雷锋网：在自动驾驶领域，从 2009 年到 2017 年，你印象最深刻是什么？

肖健雄：我觉得印象最深刻的就是大家观念上的变化，以前自动驾驶觉得不可能实现，觉得不 work，只是纯科学研究。大家对这一领域过于悲观。

现在很多人觉得自动驾驶可能实现了，又过于乐观。很多人包括像 Elon Musk、黄仁勋都觉得无人驾驶问题已经解决，我觉得他们想得太简单。

无论是过于悲观还是过于乐观，这两种方式都不正确。最好是理性看待：你要看到它确实很有前途，但又是一种渐进式的进化。

雷锋网：AutoX 期待与什么样的公司合作？

肖健雄：我们对整个交通和移动出行都非常感兴趣，合作伙伴主要有四种：

第一是汽车厂商。这是我们最想合作的伙伴，主流的主机厂可以让我们的产品进入主流车型。一开始可能不是完全无人驾驶，而是辅助驾驶，可以是 L2、L2.5、L3，不同 Level（级别）的辅助驾驶。这是我们与其他自动驾驶公司的区别，我们更喜欢渐进式的模式——一软件逐步升级、数据逐渐积累。

第二是与主机厂相关的 Tier1，通过与他们合作，我们联合开发将软件、硬件，然后销售给主机厂，将它装进主流车型。

第三是 Uber、滴滴这样的出行公司。但这种模式的问题在于：要真正达到无人驾驶才能开始商业化。这个门槛会更高、周期会更长，可能要很多年后才会普及。

第四是物流公司，包括快递、卡车等等，无人驾驶如果是载人，可能要求更高，载货要求则会低一些。

雷锋网：谈一谈你参加 CVPR 的感触。

肖健雄：现在这个领域真的引起了大家的关注。以前始我从事 CV 研究的时候，这算是一个冷门行业，根本没什么人关注，当时会议规模也很小。现在都四五千人，太夸张了。

CVPR 受到这么大关注对我们这个领域的好处是，可以吸引到社会最杰出的人才进来，这对整个领域快速发展非常重要。

“AI好青年”肖健雄：榨干摄像头性能，渐进式实现自动驾驶 *在CVPR的Workshop上，从左至右：Fisher Yu、彭军、肖健雄、倪凯、吴甘沙、侯晓迪图片来自驭势CMO雨嘉

雷锋网：今年 CVPR 很多自动驾驶相关的中国公司，比如滴滴、图森、地平线、Momenta、AutoX 都在积极参与，这些公司或多或少都做着与深度学习相关的事情。你觉得深度学习给自动驾驶带来什么改变？

肖健雄：深度学习对自动驾驶、对 AI 领域的影响是巨大无比，不能小觑。

现在自动驾驶公司使用深度学习，已经成为常识。比如，我以前在普林斯顿教书，有两个星期就是教深度学习，学生们学完后都懂了，然后他们各自去做自己的项目。

我觉得深度学习已经有一点像「你会不会使用电脑、使用 office。」所以在不久的将来我们不应该号称「我是基于深度学习的公司」，这就好象说「我们是一家基于使用电脑的 IT 公司」一样。

深度学习进展还是很快的，同时我觉得有一些进展不一定真正可以实用。

比如 GAN（生成式对抗网络，Generative Adversarial Networks），我觉得这在非人命相关的领域是十分有用的，但在自动驾驶上我会持保留态度。因为外界没区分清楚这到底是纯学术研究还是可以真正使用的技术。

现在很多技术还不完美，可能只是一个非常初级的想法，还需要更多时间才会演变得更好。比如 CV（计算机视觉），也是 20、30 年前有了初步的 idea，进化到现在才达到适用的水平。