财富杂志在近两周刊文《为什么深度学习会一夜间改变你的生活?》。文中讲到,过去四年来,我们身边的很多技术都骤然跃进。其中最为明显的莫过于每个人手机里的语音助手都变得通晓人性了,无论是亚马逊的Alexa、微软的Cortana还是苹果的Siri,都能在我们需要的时候飞快又精确地帮我们联系到各自的爱人。
image credit: science.howstuffworks.com
以深度学习为代表的人工智能技术的引入,就像通电一样,使得原本沉闷的机器、设备一下子变得灵动和善解人意。而在技术演进的背后,是微软、苹果、谷歌、亚马逊、百度这些巨头公司数年甚至数十年的投入推动。
在今年的百度世界大会上,李彦宏说“移动互联网的下一幕是人工智能。而人工智能是(公司)核心中的核心。”作为国内最早投入人工智能研发的公司之一,我们来看看百度是如何把AI变成电能一样的基础设施。
2016年百度世界大会揭示了百度人工智能的核心是“百度大脑”。作为大脑,它是一系列技术和应用的集合。李彦宏描述百度大脑有4个能力:自然语言处理、语音、图像和用户画像。这4个能力都与搜索业务高度相关。搜狗CEO王小川曾经表达过一个相近的观点:搜索公司从成立的第一天起就是一家做人工智能的公司。
在人工智能的能力搭建上,李彦宏曾经讲过3个关键要素:算法、计算资源和数据。作为一家搜索公司,它的数据规模毋庸置疑。在计算资源上,它现在拥有的高性能计算机群与英伟达的合作有着密切的关系。吴恩达和百度研究院在英伟达这一代Pascal架构的GPU研发上有很多参与。百度今天所提供的服务,如果是基于机器学习和深度学习,多半是跑在GPU上。吴恩达还在GTC 2016上表达过:
百度是第一家宣布把GPU投入到业务中的大型公司,也就是进行推理和提供服务,而不仅仅用于训练。
在计算资源投入上,黄仁勋称百度为中国最重要的客户之一,而一位业内资深人士则称百度“极其舍得投入购买GPU”。
百度人工智能战略的核心是百度大脑,如果说数据和计算资源是它的硬性实力,那百度在近几年奉行的人才战略就是将这些资源转化为项目的直接推力和催化剂。
深度学习研究院IDL是百度历史上第一个研究院。这个研究院于2013年7月成立,李彦宏亲自担当院长,而研究院的落地组建则由时任百度多媒体业务部负责人的余凯牵头。在IDL组建之前,百度也在语音技术、视觉搜索、人脸应用等多个业务上感受到了人工智能技术带来的规模和影响力的提升。
2014年年初,百度宣布了专为IDL定制的“少帅计划”:向全球招募9名青年精英,要求其在某一个或多个人工智能相关知识领域达到同龄人中的最高水准,少帅计划入职即为T9-T10,年薪则在百万起步。少帅计划还提出了3年后有望带领20 - 30人团队,独立领导一个创新项目,获得百度天使投资的招募条件。
Andrew Ng. Image credit: forbes.com
2014年,李彦宏找到Andrew Ng吴恩达聊了多次,吴恩达随后加入百度。这是当年中国互联网公司引入的最重量级的人物。在此前,吴恩达曾在谷歌负责建设全球最大的“神经网络”——谷歌大脑。而加入百度之后,他除了领导研究院,还负责百度大脑的搭建。
IDL和少帅计划这拨人,即使在离开之后,依然是国内人工智能公司的中坚力量。百度今天在人工智能上的阶段性成果,如无人车、深度学习平台PaddlePaddle均出自这里。
如前述,百度大脑是百度人工智能的核心,数据和计算资源是硬性的驱动因素,研究院体系和它吸纳的人才是软性的动因。而百度大脑也并非是其人工智能业务的全部,典型的如“百度大脑+”的应用。
比如,百度在这个月推出对话机器人形式的“百度医疗大脑”,官方介绍它是:通过海量医疗数据、文献采集与分析进行人工智能化的产品设计,模拟医生问诊流程,与用户多轮交流,依据用户的症状,提出可能出现问题,反复验证,给出最终建议。简单来说,就是医疗数据+人工智能。而百度今天最重要的人工智能产品化项目无人车,也可以理解成是百度大脑+汽车。
面向开发者端(To D)提供PaddlePaddle这样的深度学习开源平台,同时接口的方式把语音、图像、自然语言处理上的积累开放,面向消费者们(To C)开始提供度秘、医疗大脑这样具有探索性质的产品化应用,而面向行业内(To B)则提供图像、语音等技术集成整合的自动驾驶等商业化解决方案,百度的人工智能生态也就此展开。