李彦宏演讲实录：百度大脑为什么是“核心中的核心”？ | 百度世界大会

2016/09/01 15:06

雷锋网2016年9月1日消息，百度世界大会今天在北京开幕。在今年经历诸多争议之后，百度一年一度的世界大会是一个展现实力和决心的场合，李彦宏在当天讲述了什么，会定义未来一年、三年甚至更远的百度。雷锋网特此摘编了李彦宏今天在百度世界大会的演讲全文。

简单总结李彦宏的演讲：

他认为，移动互联网之后人工智能是百度的核心。三年前的“百度大脑”就已经具备了两三岁孩子的智力水平。百度今天同时拥有超大规模的计算资源、中国最大的GPU集群以及国内最为丰富（如果不是之一的话）的搜索、图像、视频、定位数据，百度今天的“大脑”已经成长到什么水平？

以下是李彦宏的演讲实录全文（雷锋网做了不改变原意的删减）：

李彦宏演讲实录：百度大脑为什么是“核心中的核心”？ | 百度世界大会

在这之前，互联网的发展已经经过两个重要阶段，也就是PC互联网阶段；第二个是最近四五年移动互联网阶段。中国7亿网民都用上了智能手机，上网人口渗透率已经超过50%。互联网的发展已经不能靠人口红利来驱动了。

当前，中国进入到经济的新常态，国家也提倡互联网+，实际上是希望我们用互联网的效率来推动行业的发展。整个中国的经济增长需要依靠互联网，但是互联网的增长却遇到了瓶颈，过去粗放式的野蛮增长没有了，互联网行业从业者感受到深深的危机。

移动互联网的下一幕，是人工智能。对于百度来说这是核心中的核心，过去百度投了很大的研发精力。对于百度来说意味着什么？用四个字形容就是百度大脑，三年前，百度就讲过“百度大脑”这个概念。那个时候的百度大脑已经具备了大概两三岁孩子的智力水平。

今天很多人问我，百度大脑相当于多少岁的人脑呢？回答这个问题还蛮难的。百度大脑和人脑的正常发育过程很不一样。

百度大脑包括三个部分：计算方法，包括超大规模的神经网络、万亿级的参数、千亿样本和千亿特征训练；计算能力，包括数十万台服务器构成了“百度大脑”的实体，几年前百度便开始自建中国最大的GPU集群，不是传统基于CPU的服务器，而是GPU，GPU早年在游戏领域使用广泛，适用于深度计算；数据，全网的网页数据、十多年来累积的搜索数据，以及百亿级的图像、视频、定位数据。这样，百度大脑就可以开始工作了。

百度大脑有哪些能力？四个能力，语音、图像、自然语言理解和用户画像。

第一个语音已经进入相对成熟的阶段。

百度大脑的语音识别已经到了第二代，使用深度学习的技术进行语音识别。百度语音识别的准确率能够达到97%，已经超过了人对语音的识别能力。

这样的能力到底可以在什么地方帮助到我们？举个例子，很多公司都有自己的电话销售部门，这个行业人员流动性很大，而销售人员需要长时间培训才能上岗。即使是经过培训，甚至有一定经验的销售人员，每个人销售效率也是参差不齐的。但是通过百度语音识别能力，一个新的销售上岗的第一天，就可能掌握他所获得的最优秀的销售能力：

新销售打电话给潜在客户的时候，客户每说一句话，客户每问一个问题，百度大脑都实时地识别了问题，并且显示在销售的电脑的屏幕上，屏幕上不仅实时展示了客户的问题，而且实时地把最优秀的销售是怎么回答这个客户的问题也展示在这个屏幕上。这样，新的销售的工作就简单多了，其实他基本上可以照着屏幕念，就能够达到最优秀的销售的话术水平。

语音识别还有很多应用场景，大家可以根据自己的行业背景去想象。

语音能力分为两个方向，语音合成和语音识别。

语音合成是把文字转换成语音，用自然人的声音读出来，而不是以前的匀速无表情的语音。目前，百度每天响应的语音合成的请求达到了2.5亿次。在情感语音合成技术上线后，用语音听小说的百度用户从过去平均每天听0.69小时，增长到现在的2.21小时。

今天，语音合成还可以根据个人需求进行定制，形成自然发声的能力，模拟任何一个你喜欢的人的说话方式。百度地图中有一个李彦宏导航语音包，其实我并没有说过那些话，就是根据我日常的语音合成的。

我们现场合成一下13年前去世的张国荣的声音。合成张国荣的声音比较难，国语的语调比较少。以张国荣在影视、电台等留存下来的原声进行建模，通过情感语音合成技术实现合成。

任何一个人只要用30分钟按照要求录制50句话，就可以用百度大脑的语音合成技术模拟出来这个人的声音。人人都可以拥有自己的声音模型。

第二个图像识别能力是如何实现的？

从技术的角度讲，它是通过对人脸特征的关键点的提取，找到了其中最不一样的地方，构成了一个面部的表情。当一个人表情发生变化的时候，他的表情特征并不会发生改变。

除了人脸识别之外，百度在其他场景中也经常会遇到图像识别需求。计算机视觉或者图像识别技术是无人车的最后一公里。过去一年，百度花了不少精力提升百度无人车在城市道路的运行水平。百度无人车在行驶过程中，通过感知，可以探测到路面上车、路标以及各种各样的障碍物，每个物体有一个独特的编号，便于车对它进行识别。这个车的识别是通过百度大脑来识别的。今年8月份KITTI评测的最新成绩显示，百度无人车在车辆检测中排名第一，车辆跟踪6项指标中取得4项第一。

下一个是增强现实，广告主可以把现实产品和希望展示的场景联系起来展示给消费者。欧莱雅与百度合作，拍洗发水就可以准确识别并和用户互动。

第三种是自然语言处理能力，目前发展程度不如图像识别。

去年在百度世界大会上推出的度秘，是个人智能助理。现在度秘和用户进行沟通的方式和传统的搜索已经很不一样了，有56%是通过语音或者图像来完成的，语音和图像的交互正逐步超越传统文字的使用频次，成为人们表达需求的主流方式。

除此之外，更核心的技术是用人的语音进行交流，虽然不是每一次度秘都能理解。今年奥运期间，百度机器人度秘搭档知名解说员杨毅，进行里约奥运男篮首场四分之一决赛解说。

最后一个用户画像能力。

通过大量的用户行为数据，百度大脑能够描绘出著名演员胡歌的粉丝群体的基本特点。胡歌粉丝群体的画像我们从兴趣和偏好的角度来看，其实在影视、音乐、公益、旅游、出行。我们看到这里面最大的一个特点还是旅游出行，而不是影视音乐，还是跟常人的思维不太一样。

专题

百度大脑与AI商业化——百度世界大会专题查看更多文章