编者按:本文内容来自地平线机器人创始人兼 CEO 余凯博士在雷锋网第 100 期硬创公开课的分享。
2016 年,人工智能在美好理想和残酷现实的夹缝中野蛮生长。当从业者们认为,人工智能时代是“技术为王”的时代,但面对价格战、商务战、公关战时,技术似乎不再是唯一的信仰。当从业者们认为,手握学术大牛、刷爆各种榜单就能所向披靡时,“AI 产品经理比科学家重要”、“刷榜是没意义的”等反驳性观点也越来越被业内认可。当从业者们认为,招一大批名校博士就可与巨头比划时,虚高的薪水和拿不出手的产品让企业不得不开始考虑性价比的问题。
雷锋网第 100 期硬创公开课特邀余凯博士为大家做了一期以《人工智能的冰与火之歌:回顾 2016,展望 2017》为主题的公开课,分享了他对今年 AI 现象的看法以及对未来的展望。
余凯,地平线机器人创始人兼 CEO,前百度研究院执行院长,曾领导百度深度学习研究院( IDL )、多媒体技术部(语音,图像)、图片搜索产品部等团队。2012年以来,余凯创建百度IDL,发起和领导了百度大脑、百度自动驾驶等一系列项目,并连续三次荣获公司最高荣誉——“百度最高奖”。余凯发表的论文被引用超过 11000 次,获 2013 年国际机器人学习大会( ICML )最佳论文奖银奖,曾任 ICML 和 NIPS 领域主席。他于 2011 年在斯坦福大学计算机系客座主讲人工智能课程,还曾率队于 2010 年获得首届 ImageNet 评测世界第一名。
1. 雷锋网:2016 年 AI 圈最让你记忆深刻的几件大事 ?
AI 计算硬件:英伟达的股票在一年时间内从 100 亿美金 500 亿美金,震惊业界。背后的原因是处理器架构因为人工智能的需求正在被重新定义,Google 也推出 TPU 来做 Inference,除此之外,包括地平线机器人在内的不少公司正朝着这个方向去探索。
算法层面:如生成式对抗网络等算法的突破性进展,使我们看到除了CNN、RNN、LSTM,技术还在不断推陈出新,让这个行业变得越来越有意思。
开源平台:今年开源平台体系在不断成熟,如 TensorFlow、Caffe 等,特别是由中国学生发起的MXNet成为亚马逊 AWS 官方训练平台这件事,很了不起。
AlphaGo 事件:改写全社会从街头百姓到政治对人工智能的认知,实现了大家均认为不能实现的事情。
人才流动:Hinton的得意门生、CMU 副教授 Ruslan,最近耐不住寂寞加入苹果,担任苹果人工智能研究总监。斯坦福大学李飞飞教授也加入谷歌。
2. 雷锋网:今年人工智能行业相比于去年有哪些宏观和微观的进步?
我感触最深的是从 2006-2016 年这十年间,是深度学习的普及和推广期,其在很多应用中取得突破性进展。但所有成果均为感知方面的东西,如图像识别、语音识别等。而从今年开始,最大的不同像 AlphaGo 和自动驾驶等人工智能系统开始从感知过渡到决策。这些系统基于对这个世界的理解,从而主动优化它的决策机制。因此从感知到决策是最大的变化,人工智能只有做决策才能真正改变世界。
我认为在未来的 10 年里,怎么优化地去做决策是人工智能的重点课题。
3. 雷锋网:为何成立 OPEN AI LAB;为何选择做嵌入式人工智能?
历史上技术创新和商业模式的创新都是相伴相生的,我们也看到,开放总是会打败封闭,怎么打造良性的产业生态是我们非常关心的。因此最近地平线和 ARM、安创空间、全志联合成立 OPEN AI LAB,我们希望把技术向半导体厂商、开发者开放,大家一起去定义嵌入式人工智能的标准。至于为何要做嵌入式人工智能?过去推动人工智能的核心要素可以概括为大数据、大计算、大平台:其在互联网和云端做人工智能的技术与服务。如果朝更远的方向看,我们会发现除了从云端部署人工智能,其实很多场景下急需在设备端部署人工智能,使这些设备具备环境感知、人机交互、决策控制的能力。
以自动驾驶为例,如果有孩子横穿马路,当自动驾驶系统感知到之后,需要把信号传送到云端再做决策,假如当时网络不稳定的话,结果是不可想象的,因此我们需要本地计算去做实时决策。
创业公司做项目一定要选择大公司不大容易进入的维度,BAT 在数据、人才、资源、服务方面的势能,创业公司很难去挑战。但本地低功耗人工智能计算不是他们的强项,也不是他们的业务重点。另外我认为创业一定要选难度较大的事情去做,嵌入式人工智能需要把软硬件结合,并重新定义处理器架构,这是非常复杂的工程。这项任务虽然困难,但我认为只要达到这样的维度才能构建宽广的护城河。我们希望把嵌入式人工智能构建成一种开放生态,使其未来在端上产生很多创新,让意想不到的创新点在此发生:开放式生态可以把许多想法从一个创意变成产品,而这些想法和产品又会反哺地平线。
4. 雷锋网:您觉得在 IDL 和创业最大的区别在哪儿?
无论在 IDL 还是在地平线,对我而言其实都是在创业和创新。当年我从国外回到北京,创立百度深度学习研究院,最初其实也是在做一件很新的事,当时国内没有一家机构在做深度学习,因为它很小众。初期我们被很多人质疑为什么要投入这么大的精力去做这么窄的方向。然而在今天看来,这个很小众的事情已经成为很多人都在关注的主题,整个世界也因此而改变。
地平线机器人实际上也是在做一件很小众的事情,我们不在云端、服务器、GPU 上做,而是在嵌入式中去做人工智能,这也是件很小众的事情,然而在我看来把一件事情从小做大是很让人着迷的。
小公司相比于大公司资源确实十分匮乏,但实际上地平线的目标却比我在百度期间的目标还要大,我们不是服务一个公司,而是撬动一个产业,这个挑战难度比以往大了几个数量级。
在创业公司坐事情的难度体现在方方面面,比如招聘,百度有着成熟、强大的 HR 体系支持我做这件事情。而小公司往往没什么名气,如何吸引顶级人才加入也是一件难事。此外还有很多琐事和细节,我们每天都在做非常具体的事情,但这又是很理想主义的事情,纵使挑战难度很大,但这也使得人生更有意义。
5. 雷锋网:根据你在大公司研究院和创业公司的招人经验,分享下在 AI 团队的招人心得。
在美国和百度时,招聘是我每天需要面对的事,因此我自身有着相当多的经验。另一方面,在地平线我们也在积极吸引优秀人才的加入。吸引人才加入是一件很有挑战的事情,因为现在人工智能人才还是比较稀少,我们做的事情又比较难,而且又是一条长线征途,所以有些人不理解我们的方向,我们做的事情在他们看来是既小众又没那么容易变现的事。
我遇到一些从事人工智能算法的同学,他们有几年深度学习经验就迫不及待地想改变世界,所以不太愿意去做一些偏长线的事情,但他们没有意识到真正有价值的事情都是困难的事情、有壁垒的事情。所以我经常告诉他们创业是一场艰苦的修行,而不是一场 Party,如果艰苦的修行走下来,无论是在路上还是在山顶上,那种满足感和成就感都是无法比拟的。
当公司做的方向跟主流方向不一样时,这种情况下吸引来的人才是极为难得和特殊的,因为他们是经过自己冷静思考来做事情,这批人往往是推动公司上下做一番事业的人才。地平线确实非常有幸,在很短的时间内招到了顶尖人才:包括算法、软件系统专家、硬件专家。我在百度时领导的团队平均年龄是 26 岁,而地平线工程师平均年龄是 32 岁。因为我们是非常偏技术的公司,确实需要非常资深的人加入。
6. 雷锋网:“现在最缺的是AI产品经理,而不是研究大牛”,你认同这句话吗?
对于一个商业公司来讲,算法人才和产品经理同等重要。这里我要强调一点,何为研究大牛?我认为研究大牛的特质是“要有自己的思考和深厚的积累,他能够持续的创新”。其实能创造性地做出世界级成果的人是非常稀缺的,在国内我认为只有 5 到 10 人才能达到这个标准。一个算法人才普遍学习过 1-3 年的深度学习、会用开源平台去训练模型,即使是这样的人也不多,而这些人更谈不上是研究大牛。所以我认为研究大牛是一种很稀缺的人才。
当然,AI 产品经理也非常重要,因为他定义需求。如果造出来一个东西技术水平高,但不能解决实际问题,技术再高也没有实际价值。因此我们在创办一个商业公司,AI 产品经理也十分重要。
7. 雷锋网:外界有一种说法,大致是目前各个To B的人工智能公司之间技术差距相对较小,因此很多时候销售和商务团队决定了公司的命运。你怎么看待这个说法?
这个问题正中行业要害。从目前来讲,绝大部分人工智能创业公司都是在基于 GPU 这样的计算平台和在基于 Caffe、TensorFlow 这样的开源平台用比较成熟的模型结构来训练,然后做一些解决性问题和 Demo,差异化确实不明显。基于现在的开源模式来做创新,在算法方面壁垒确实也不高。
所以这就导致在一些标准问题里各家的效果都差不多,技术差距也并不大。这里面的核心原因之一就是中国人工智能原创性技术太少。
最近大家在说中国 AI 的人才、技术储备、研究、创新都有优势,这个观点我不太认同。实际上,国内学生在已经讨论出解决办法的情况下去做拿竞赛、刷分,这方面我们很擅长。但真正做出 AlpahGo 这样的创新,咱们还差些火候,而且国内也缺乏孵化这种创新的土壤。今年深度学习原创性的基础研究在大步向前发展,然而我几乎没看到哪些进步是国内产生的。
另外一方面,商务和销售确实非常重要,因为只有把技术和具体应用场景拉近才能产生价值落地。技术研发也一定要有差异化,这种差异化如果只是做研究,只是去 Follow 开源平台等这些大家都在讨论的事情,这是很主流的做法,如果你一定要关注主流算法,潜台词就是你已经放弃了差异化。因此你一定要深入特定的问题,深入解决那个场景下的各种限制条件,去针对性地提出特殊的方法解决实际需求,这是让你更有差异化的途径。
科学家创业需要对商业和实际需求抱有充分的敬畏之心,商务和销售团队也并不至于决定公司的命运,关键在于团队之间的配合。商务和销售比较看重眼前需求,对技术趋势缺乏准确预见,而一个公司要走得长远,还得看清未来技术发展趋势。
8. 雷锋网:不少欧美 AI 初创公司最终卖给了谷歌等巨头,但国内这种情况很少,你怎么看待这一现象?
人工智能作为一个新的产业方向,早期都处于探索阶段,初创技术公司独立存活的概率并不高,所以会选择被大公司收购,这是一个较为明智的做法。
国外工业界和技术创新生态比较健康,大公司愿意付出成本为前沿性技术做人员收购,而且在不考虑成本的情况下。而国内很少有大公司愿意为技术和人才收购付出很好的溢价。
其实每个公司被收购都有一个内在逻辑:这些公司不是范范地提供通用技术,而是在某个维度有着一定的独特性,如 DeepMind 不仅在做深度学习,还将深度学习与增强学习相结合然后应用在围棋、游戏等场景。这背后的逻辑,我认为很大程度上是文化原因。国内公司更愿意用高成本去挖人,而不愿为独特团队或知识产权付出高成本。我希望这个现象能发生改变,出现更多出于对人才和知识产权的收购。大公司如果能够意识到这点,我觉得能够对国内技术创新产生非常正面的影响。
人工智能产业仍处于早期阶段,重大应用场景还在不断摸索,产出的确非常低。但如果回到“.com”时代,你会发现当时的商业模式也是探索了很长时间。
资本市场确实有追逐短期回报的现象,所以明年下半年到后年,即便整个 AI 投资市场趋冷也并不奇怪。AI 行业与“.com”时代一样,即便是趋冷,但也不会影响到整体的趋势。因为 AI 确实在推动产业发展,实实在在创造价值,它不会进入一个万劫不复的寒冬。
实事求是的说,如果按照投资机构的计算方法,AI 泡沫是一定存在的。AI 创业公司确实估值比较高,而且市场进展也并不尽如人意,到明年或后年一定会有所变化。从长期趋势来看,适当泡沫纯属正常,就像啤酒有泡沫味道才更好,正是因为泡沫才让各公司都有机会去登上舞台。不论怎样,大家亮个嗓子,在舞台上唱一下。
我也经常跟投资人聊这个事,经过观察国内十几年的产业周期发现:以往多数项目均为 2C 产品,都是以产品创新和微创新为鲜明特征。中国没有经历通过技术创新为主的经济增长模式,而硅谷等地已经历过好几波技术创新,这在中国很少见。中国大部分投资机构和创业者,并不善于技术类投资以及做 To B 这种生意,所以大家还不太习惯对这类公司进行估值。
我们一谈到投资和创业,永远面对新的产业方向,然而在面对新的产业方向即便是海外专业投资公司也不一定看得准,所以也能看到像投资 MagicLeap 这样的新型公司都是有争议的。
AI 从纯技术和纯学术话题转变为全社会讨论的话题,使得专业的声音很有可能被淹没,这是我所担心的。投资机构和媒体的所有动向都会影响到产业的发展,AI 从业人员却难控制。
AI 在内部环境受到 VC 和媒体的万千宠爱,但外部的环境是很残酷的、理性的、不相信眼泪的。在这种情况下,企业应保持冷静,抓准切入的点,保证服务价值从而构建自己的护城河。整个行业的发展一定是由理性驱动,一定是由实实在在的需求和价值来驱动,因此我个人并不是特别担心投资机构和媒体过多溺爱这个行业从而致其堕落。当然,大浪淘沙一定会有所选择,真正能够平心静气把创业当作艰苦修行而非豪华盛宴的创业者会走到最后。
12. 雷锋网:对 2017 年人工智能行业的格局和发展做个展望和预测。
我对 2017 年充满了期待,希望这几大方向有着一定的进展:
希望人工智能处理器硬件行业会有大的突破。
算法上继续持续创新。
应用场景上的重大突破:如医疗、自动驾驶、智能家居等。
从整个创业投资角度讲,明年下半年 VC 应该会更加冷静、理性地思考,这里并不是指降低投资力度,而是聚焦投资范围。同时对未来发展方向和路径会考虑地更加清楚,把资本注入重点方向和具有价值的团队。
1.怎么看待近期谷歌无人车事业部拆分成独立公司?这个案例可否理解为自动驾驶已经遇到天花板了?
从百度到地平线,我都做过自动驾驶的事情。根据我自身观察,谷歌无人车事业部拆分这件事一点都不奇怪。谷歌一直存在几个严重问题:
商业策略:谷歌没有思考清楚商业模式,到底该提供整车,还是成为技术服务商、供应商。
技术路线:谷歌的计划很激进,想一步跨到不需要方向盘的无人驾驶水平。事实上谷歌的虽然目标很大,但技术路线较为很保守,导致目标与技术路线并不匹配。谷歌无人车是基于高精度地图的自动驾驶方案,该方案有很大局限性,需要事先对整个环境做出全面感知,这使得其在处理不确定性事件方面有所欠缺。这种不确定性体现在长尾情况,而不是常见情况,而在长尾挑战层面,谷歌在技术线上没有很好地去处理这个问题。
2.如何看待近期比较热的强化学习和迁移学习,他们在应用方面的发展现状怎么样,以及所面临的挑战?
强化学习现在面临的主要挑战是怎么 Handle Long-term Dependence 的问题,如果最后它 Reward 很长时间才显现,它怎么去影响当前的 Policy ,是一个很大的问题。强化学习的代表 AlphaGo 实际上运用了巧妙的方法如 Learning From Experience 去下围棋,这一点很有意思 。那么未来如何在理论上有一个优美的框架,我觉得还是挺值得探讨的。
另外,强化学习的框架相对而言是一个比较黑箱的系统,这与感知不同,在感知方面黑箱一点也可以,但在决策上一定要用白箱的、可理解的方式去做,尤其是自动驾驶领域。
关于迁移学习这一问题,其实深度学习、神经网络天然就拥有迁移学习的特性,比如用 ImageNet 去训练网络结构,实际上它的很大一部分参数在其他问题上可以复用。在参数领域的迁移学习,大家都搞的比较清楚,但在结构方面的迁移学习,现在还并不太清楚。结构反映了更高层的学习问题,基于模型结构的迁移学习将会是下一个热点。
3.您对哪个深度学习开源平台在 2017 年的发展有比较大的期待?
谷歌依靠自己强大的号召力推动了 TensorFlow,鉴于其强大背景,使得它在明年仍旧很值得期待。而在近期被亚马逊选为官方平台的 MXNet 同样值得期待,MXNet 是一个更加开放的中性平台。如果想深入开发技术、开发原创新技术、追求技术自主性的话推荐用 MXNet。从生态层面讲,如果整个人工智能的开发都基于 TensorFlow,这对生态的健康有着负面影响,容易被一家公司垄断,将会影响到产业链的方方面面,如处理器和应用等方面的部署。
除此之外,也推荐大家使用我在百度期间孵化的“亲儿子”百度 PaddlePaddle。
我先下个结论:最不容易成功的是基于纯算法的公司,主要原因是壁垒低。现在新的开源创新方式使得新算法不断冒出来,基本上每个小时都在创新,如果一个公司的核心竞争力基于聪明程度,这很不靠谱。这个世界上永远比你更聪明的人,而且很多。
无论是平台还是产品,其核心竞争力在这两方面:
巨大的市场需求
足够的差异化和独特性,不可复制性
满足这两点,你的产品和解决方案或服务才拥有核心竞争力。