雷锋网按:本文根据余凯在微软亚洲研究院召开的“让世界充满 AI-人工智能研讨会”上所做的报告《 “AI Inside”无处不在的未来 》编辑整理而来,在未改变原意的基础上略有删减。
我总在思考,如果当一个风口到了的时候,我再进入这个风口,我会没有满足感。
我始终在想,下一个机会在什么地方?它现在可能处于边缘状态,但我相信某个边缘的机会,会成为一个未来的机会,而这个未来的机会就是下一个风口。
这个思考过程非常痛苦,因为需要不断否定自己,去挑战自己,而且不被大多人理解。
2012 我们在清华大学以及百度内部推深度学习,别人会质疑:投入这么大的资源去做这个事情是否值得。而现在,很多项目都是基于深度学习,并且应用非常的广泛。
这其实就是一个从边缘到中心的典型案例。
我继续在思考,是不是该到边缘去,看看将来有没有机会成为撬动世界的力量。这就是我的 AI Inside,之前有个概念叫 Intel Inside,它创造了摩尔定律,撬动了整个 IT 产业。
2002 年我在微软实习,当时我、何晓飞、颜水成是团队里为数不多较为关注机器学习的人,因为志同道合我们就成为了好朋友。有意思的是,之后我们三人里面,我创立了百度深度学习研究院,晓飞创立了滴滴研究院,而水成则创办了 360 人工智能研究院。
我认为驱动人工智能的进展主要有三个因素:
大数据:线下的数据不断线上化。
大算法:深度学习和增强学习的发展,深度学习用来感知、处理信号,增强学习则做于决策。二者相辅相成。
大计算:按照摩尔定律,2030 年一千美金买到的计算资源跟人脑相似。当然,现在英特尔宣布摩尔定律开始变慢。所以预测没法这样下去,另外一方面,从宏观上讲,对处理器架构的改版不仅仅是工艺层面,架构的变化也为计算带来变化。
从统计学习理论角度讲,分析一个学习算法的性能一般用推广误差来分析它。如果我们对推广误差的来源做分析,我们就能找到更好的方法去控制算法中一些不恰当的地方,以便找到更好的手段。
这其中有一个经典的统计角度分析方法,就是把推广误差分解为:近似误差(Approximation error) 和估计误差(Estimation error)。
近似误差(Approximation error)主要会做一些假设,由于假设的不完美,所以带来了近似误差,另外一种由于数据的不完美,所导致估计误差(Estimation error)的出现。
这样分析存在一个问题,就是你假设的计算资源是无限的,所以可以得到这样一个分析的结果。但从计算机科学的角度上来讲的话,我们会考虑计算的不完美,所以引入第三个误差:Optimization error,也就是算法。
考虑到计算的不完美,我们得到一些引导。
Model Class Bias:我们用大模型,模型越来越大,Bias 就越来越小。
用更多的数据。
设计一个合适的算法。
深度学习处于一个非常幸运的区间,从统计性能来讲,他的 Model Bias 很小,但从计算效果来讲,它可以看到大数据。
这是一个很幸运的事情,过去深度学习在视觉和语音上有着很多的应用,而在互联网行业中主要应用在搜索和广告中,当然,机器人也是一大落地方式,深度学习在机器人的作用主要在于决策。
在百度期间,我们利用很大的模型和 1000 亿个训练样本,去改善搜索引擎的检索,比谷歌的 Ranknet 早两年。
包括在数据中心用深度学习改善运行效率,把 PUE(评价数据中心能源效率的指标)降低,这比 Deepmind 今年做出的结果早一到两年时间。
除了这些以及自动驾驶外,深度学习还能提升广告收入。这是百度当年的股票曲线:
图中那个节点,是百度对外公布基于深度学习的百度蜂巢网络(广告系统)的节点。
刚加入百度的时候,我在自我介绍环节提到,希望在两三年时间内让外界在讨论 Google 人工智能时也会讨论百度。
站在今天这个时间点上,我想跟大家分享。
我的回答说 AI Inside,过去我们在云端部署算法和服务,但是现在有个机会是,把运算放在嵌入式和前端中。
比如是否可以在前端实现语音识别?
这样在跟太太说的话不一定要传在云端里面,隐私能更好保护,体验更好。
再比如说在自动驾驶,如果有个小孩子突然横穿马路,传感器需要把这个信号传送至云端,然后做决策,但如果这个时候网络信号不好呢?
这就涉及到如何在前端嵌入式地解决人工智能的问题。
(颜水成博士曾在雷锋网承办的 CCF-GAIR 大会中提到,如果将运算任务直接下发到智能设备终端上,这些瓶颈就会迎刃而解。但是,把运算载荷放到设备上,显然要克服诸多问题。其中最大的一个就是:终端设备的运算能力存在天花板。由于智能设备成本有限,大多不可能配备顶级运算芯片)。
在中国有很多应用场景,中国每年需要新部署一亿的安防摄像头,大概到 2021 年,其中 30% 的是智能安防摄像头。这就必须要求低功耗,如果功耗很高,在阳光照射下,温度能达到 70 到 80 度,这种情况下就不能很好地处理计算。
平均每辆自动驾驶汽车拥有 8 到 10 个摄像头,再加上传感器、雷达、激光雷达等等,每一秒产生 TB 的级的数据,这种计算怎么去处理?
孙正义预测,2040 年会有 100 亿个机器人,当然这种机器人指的是广义上的智能机器,而不仅仅是人形机器人。
历史总是在不断重复,首先是 Enabling Technology Businees ,然后是 Technology Tnabled Business。
前者卖的是技术本身,当这些技术成熟后,一些公司做开发直接采用别人的技术,在这基础上,这些公司卖的是其他产品。
互联网时代,思科的市值一度高达到 3000 亿美金。虽然当时我们不知道互联网有什么用,但得先铺好网络,等网络铺好后,在这上面出现了 Google、Facebook 这些应用。正如图中显示,谷歌在后面成长起来。
移动互联网,虽然不知道移动应用在哪里,但移动网络需要 CDMA,铺好后苹果成为了巨无霸。
过去三四年时间,有个规律正在发生。
2011 年谷歌做大规模的深度神经网络训练,最后识别出猫脸,其实这件事是失败的。当时他们相信用 CPU 可以做所有事情,后面 Jeff Dean 意识到做神经网络训练用 CPU 是错误的。在百度,我们大规模用 GPU 做深度学习训练,在 2014 年,我们和微软都意识到 GPU 只适合做训练,不适合推断和预测,所以在大规模部署FPGA。今年我们也看到了其他产品如 TPU 和 BPU。
我再给大家看一个曲线,这个曲线是我一个礼拜之前画的:
这是英伟达的股价曲线,从去年七月开始到现在涨了四倍。在全球所有的高科技公司里面没有一家可以像它一样如此高速成长。为什么?现在无论 AI 大公司还是小公司,总需要买 GPU 训练模型。这就是 Enabling Technology 先行,Technology Enabled Business 顺势崛起的一个典型案例。
地平线正在建立一个软件和处理器的深度神经网络平台,让上层应用的表现有 1000 倍的提升,不是跟 CPU 比,我们是跟 GPU 比。
面向的应用场景主要包括自动驾驶和智能家居。
和英伟达的业务相比,他们的工作区域是在 20 瓦到 300 瓦,地平线的目标是 0.5 瓦到 5 瓦,他们的核心竞争力是价格优势和服务,我们的定位策略是芯片+算法、解决方案和设备。
一直到今天为止,谷歌和百度的无人车在测试时每行驶一小时就需要在树荫下休息,知道为什么吗?因为要散热,无人车的功耗是非常大的。
假如我们涉及处理自动驾驶这样一个计算,跟英伟达的计算相比,我们的不同在哪里。
地平线的优势在于我们跑这个运算时少于 1 瓦特,但他们用了 100 瓦特,这就是我们的区别,也是地平线机器人正在做的事情。