科大讯飞胡国平：人工智能的热潮下，怎样实现产品落地？ | 万物互联创新大会

科大讯飞万物互联创新大会胡国平人工智能

作者：恒亮

2016/11/13 15:39

科大讯飞胡国平：人工智能的热潮下，怎样实现产品落地？ | 万物互联创新大会

11月13日，第二届万物互联创新大会于杭州正式开幕。来自科大讯飞研究院的胡国平院长为大会带来了题为《人工智能的顶天与立地》的主题分享。

基于科大讯飞17年来在智能语音和人工智能领域走过的成长历程，胡国平院长首先从技术的角度分析了目前我们正在经历的人工智能热潮的3大幕后推手，即怎样实现了人工智能的“顶天”：

1.深度学习；
2.大数据；
3.云计算。

胡国平坦言：”做人工智能技术的核心技术研发，其实需要花费非常多的时间、精力和金钱。“因此，他站在创业者和投资者的角度，总结了人工智能技术的落地优势，即“立地”过程中的5个关键点：

1.在人机交互的接口方面实现广泛的落地；
2.与物联网和大数据深度结合实现落地；
3.利用人工智能独有的客观性、稳定可传承性；
4.人工智能面向海量任务不知疲惫；
5.在人类学习成本高，使用频率低的领域落地。

随后胡国平表示，按照上述关键点确定产品的落地方式时，在具体的实践方向和节奏把握方面也会遇到一些问题，这时需要注意如下的3个方面：

1.对准现实生活中存在大量重复性脑力劳动的领域；
2.想好一个实际的应用场景，并集中力量将这个场景攻克；
3.不要总想着颠覆，从人机结合的角度入手，或许更容易落地。

胡国平认为：做人工智能的公司，一定要有自己的坚守。他说：“就像我们做讯飞输入法，6年的时间我们每年的相对错误率才下降30%，每次都需要在相关方向做巨大的技术投入，才最终取得了今天的成绩。”

以下是胡国平院长的演讲原文，雷锋网做了不改变原意的修改：

大家上午好，我是来自科大讯飞的胡国平，非常高兴有这样一个机会与各位分享，作为人工智能这样一个研究院一线工作者，在人工智能方面的一些思考和想法。

人工智能走过的60年以来，历史使命的定义来说，工业革命，我们把人类从繁重疲劳中解放出来，信息技术把全世界紧密的联系在一起，而人工智能它所定义的历史使命是一定要把人类从繁重的脑力劳动中解放出来。脑力劳动，某种来说，人工智能是最后一个需要靠人类自身智慧去攻克的革命。如果人工智能取得了重大的突破，超过了人类自身的智能，大家可以想像以后所有飞机的设计，去太空，去火星，也许都不需要人类的智慧在其中参与了。所以也是人工智能最后一个需要人类智慧自身攻克的话题，所以人工智能对于整个世界的吸引，对于所有智力团队的诱惑是非常大的。

人工智能，大家都知道60年来经历了三次浪潮，或者说三起三落。但到目前为止，大家又知道我们经历了第三次的人工智能浪潮。也许这一次还可能会有一些波折，但无论如何人类去追求人工智能的梦想会持续的往前推进。大部分人认为，包括科大讯飞都认为，我们现在正在经历第三次浪潮，已经处在真正爆发的前夜，人工智能技术会进入方方面面的应用。

刚才吴军博士也讲了很多，人工智能已经改变了我们很多方面。或者说这一次人工智能真的火了起来，包括机器下棋攻克了围棋的最后一个难题，语音合成已经超过一般自然人的说话水平。语音识别，大家也看到了右边这样一些语音识别效果，已经达到97%的识别率。人脸识别，据官方报道已经超过了人类肉眼所能达到的水平。自动驾驶，我这个数据，应该安全行驶数百万公里。计算机自动去识别学生写的这样一个纸笔写的试卷，已经超过专家水平。语音评测，机器翻译，自动聊天，已经达到了18个轮次，你都无法判断出来到底是人在和你聊天，还是微软的机器在跟你聊天。

我们的知识竞赛也是超过了人类冠军，以及能够自动做诗，自动写新闻，以及智慧医疗，刚才吴军博士也做了介绍。应该说这次确实人工智能真的火了起来，而且人工智能火起来之后另外一个很明显的特征和迹象，政府也好、巨头也好、创业者以及资本，都是大量的涌入。包括美国、中国，都把人工智能定义为国家战略，以及像Google、Facebook、苹果、讯飞、百度都进入了人工智能前沿领地。特别是最近2016年以来，阿里、华为、腾讯、乐视、联想，我前天还看到一个消息，小米也正式宣布要进入人工智能领域。

现在也有成百上千的人工智能创业公司，以及资本，也是大量的涌入。另外多说一个事情，我们普遍认为人工智能竞争作为人类自身智慧最后一个需要攻克的技术，它和国际之间的PK和对抗主要是在中国和美国这两个国家来对抗。刚才两位老师的数据也明显的看出来，大数据和人工智能主要的贡献或者参与者也是中国和美国的企业，这主要是因为人工智能的技术依赖于大数据、移动互联网、云计算，和广大的用户群体。在这方面，中国和美国是佼佼者。

我从技术的角度来说，更想和大家分享的是，这次人工智能技术火起来背后真正原因。归结为三点：一个是深度学习，一个是大数据，一个是云计算。

首先深度学习，或者说深度神经网络横空出世，这是在2006年提出来的深度学习的方法，取得了历史性的重大突破。它的最基本原理其实也比较简单，就是在左边这样一个复杂的网络里面，通过有相关数据输进去之后，通过网络产生最后的输出。

如果这个输出和原来所标注的答案不一样，它通过一个BP的错误回馈算法去修正相关网络中的参数，使得它最终对整个训练级而言，它的预测和建模的准确度最高。方法其实很简单，但是最大的一个作用是它这里的网络量非常大，自由数非常多，建模能力非常强，使得它有效的抓住类似在图象识别中，从像素到边界，到部件，到人脸一系列特征，能够做出有效的人脸识别。

我们如果从直观去理解，这样一个深度学习最关键的特点，它是更强大，更通用的，能够更高效地训练数据的建模机器。

我们举一个具体的例子供大家理解深入学习关键突破的点，模式识别。左边假设是一张人脸图像判断它是男的还是女的，按照经典人脸识别套路，可以提取它的特征，头发、胡须，训练相关模型，用各种语言，一系列机器学习的模型，最后来建初模型，做触摸式识别。但是用了深入学习之后一个很关键的特点，提取特征的环节已经没有了。对于机器而言，现在已经只需要，或者整个模式识别内容已经简化为准备数据和训练模型，最简单的两个环节。

如果大家注意到AlphaGo的算法原理，它也是类似这样操作的，对图象识别来说不再需要任何特征的提取，直接把像素值输进去。对于AlphaGo而言，它也是用深度学习，而且直接把19×19格子上围棋黑白棋信息输入神经网络，判断当前棋局下黑棋赢的概率是多少，不再用人工方法告诉AlphaGo应该去看什么样的东西，它输入的都是最原始的信息。如果把深入学习看成一个黑盒子的话，可以理解这次人工智能的变革。就是拿足够多的有监督海量迅速数据，来直接输入一个黑盒子，它就可以获得一个与人类可媲美的人工智能技术。简单来说，一万个小时训练样本，再去训练10的7次方自由度或者参数、个数的神经网络，就可以达到与人类可媲美的语音识别效果。

当然，这个不是黑盒子，用的是包括GPU为主的计算服务器。所以再抽象的来看，人类可比的人工智能其实是靠大数据喂起来的，或者靠大数据、大成本、大量计算喂起来的。确实现在我们进入了一个深度学习的时代，因为深度学习的通用性，已经不再需要针对任何一个特定任务去做很多特征提取，或者相应的分析和研究工作。所以深度学习至少从科大讯飞看来，2013年起已经被广泛应用在语音和语言的各个方面。我们现在几乎用的所有方法都是以深度学习为主框架方式来做语音合成、评测，包括语言模型、机器翻译与人脸识别所有的方向，全部在深度学习框架上。

而且更关键是大家如果做投资也好，做相关创业者，一定要记得另外一条。深度学习也在不停的往前演进，2011年主流的DN技术路线实现了广泛的应用。但是到了2015年提出了有效模拟人类神经注意的模型。现在全世界相关会议论文，50%以上都和深度学习相关，或者说全世界所有智力学者都在研究和改进深度学习。深度学习本身也会持续改进，因为持续改进，每年都会费掉讯飞研究院30%的代码。你可以爱上自己的工作，但一定不要爱上自己的工作成果，因为技术变化非常非常的快。

刚才说的更多是偏语音图象识别的概念，深度学习在2014年左右开始，已经站在最经典的语言翻译基础上，取得了更好的效果，它也是采用最新Atentional技术。它所用的方法是基于海量中英文句队，机器可以有效的实现机器翻译。而且现在大家所喜闻乐见的聊天机器人，自动做诗全是用这个套路所实现的，机器并不能真正的懂得语义。人工智能还在继续往前走，被广泛认为可以替代图灵测试，来测试机器智能有没有像人思考的测试。这个测试是用常识推理的任务，检验机器是否具备这方面的智能。

举个例子，爸爸没法举起他的儿子，因为他很重，是谁很重，所有人都很容易理解是儿子很重。如果爸爸没法举起他的儿子，因为他很虚弱，大家都知道是爸爸很虚弱。科大讯飞提出了基于神经网络主要方法的深度学习认知智能路线，取得了2016年评测第一名。这里要告诉大家的是，第一名的成绩在5选1的选择里，我们正确率只有58%，所以相对而言和人类接近100%智力相比，还是有相应的一些差距。

第三个，刚才说了神经网络，大数据，第三个推动人工智能在最近这五年内取得飞速发展的就是云计算。因为在云计算的支撑下，人工智能首先扩大了整个模型的规模。刚才说了10的7次方参数的模型能够有效被应用起来，以及也获得了大量真实数据，我们前面所说的人工智能所需要的位进学大数据获得了有效支撑。以及云计算模式，每天更新一个版本，加速了技术迭代的速度，所以云计算是人工智能进步的技术推手。

整合前面所说的，人工智能专业技术公司必须拥有的三大要素。顶尖人工智能算法及团队，为什么要团队，因为算法持续往前演进。同时要有独特优势的大数据积累，以及云计算的能力和服务。这三个加在一起，它就可以去实现包括科大讯飞在内所做到的，每年相对30%-50%的错误率下降。这里有一个技术上概念，错误率相对下降，错误率相对下降是评价一个人工智能系统往前改进难度的概念。简单来说语音识别错误率从20%降到10%的难度，等同于从2%降到1%，因为它们相对下降都是50%。

大家前面也说了，摩尔定律走了几十年，而人工智能类似的摩尔定律，30%为错误率相对下降基线，每年错误率相对下降持续了至少五年以上。而且我们也相信通过算法的演进，数据的积累和云服务的模式，这个相关的人工智能摩尔定律还会继续往前走至少3-5年。我们要从两个方面来看这30%到50%的错误率相对下降，第一，如果你所从事相关人工智能算法，年平均错误率下降没有达到这个值，那就证明你在整个人工智能竞争中是处于相对落后的状态。现在我们在拼人工智能，已经不再是拼现在已经达到的水平，而是拼你在人工智能的速度进一步加速度。第二，当你看到某个技术现在还不完全好用的时候，比如说现在的视频监控中人脸识别，但是如果我们把前面三件事情做起来的话，它可以保持每年相对错误率30%下降幅度。

简单来说，如果今年错误率是20%，那么明年就是14%，再往后可能就到10%的水平。所以创业也好，投资也好，你可以拥有这样一个摩尔定律去预计相关的技术在什么时间点，能够达到用户可接受的门槛，这是很关键的一点。当然这里可以打一个硬广告，如果你没有人工智能顶尖算法和团队，或者没有云计算、云服务的能力。但你针对自己的行业，或者相关认识的朋友有很独特优势的大数据，那么你可以直接拿着大数据去找这样一些科大讯飞人工智能专家。就像吴军老师所说的，通过新的技术去改造原有的相关算法，或者相关的系统，来达到人工智能武装传统的行业。

前面讲的是真正所理解的人工智能这次浪潮背后的原因，三大推手。下面是创业者和投资者希望听到的，对于科大讯飞17年来在智能语音和人工智能走过历程中总结出来的一些经验，或者说教训。确实，人工智能是最近五年，或者最近三年才真正火起来，特别2016年是最火的一年。但是对科大讯飞而言，我们99年从科大大学生创业以来，一直在追求人工智能的梦想。因为技术的进步，我们打开整个相关的市场空间，进入了更好的发展机会。

科大讯飞胡国平：人工智能的热潮下，怎样实现产品落地？ | 万物互联创新大会

这里首先要说的一个挑战，大家都知道人工智能是所谓技术，但是人工智能和传统意义上的技术在落地方面，在立地方面有很大的不同点。大家也许不能完全理解，我为什么把机器翻译和WIFI放在一起来理解。是这样的，当世界上推出一个WIFI技术的时候，所有人都会欣然接受它，不会说你的WIFI，我不需要，我可以通过自身能力实现手机和终端设备联网的能力，因为所有的WIFI是人类自身所不具备的技术范畴。而机器翻译不一样，只要是大学生，都能找出来现在的机器翻译系统所出现的系统。所以当你把一个机器翻译技术推出去，或者把语音识别技术推出去的时候，别人总会质疑你，你的技术和人的能力相比实际上还是有差距的。我未必要用，我可以自己搞定。

简单来说，人类的智能相对人工智能来说，它的打击是无处不在的。是的，机器可以做出一些搬运运货机器人，但是搬运工说不用也可以搞得定。自动驾驶和驾驶员的PK，以及速录员对语音转写，医生对于沃森的系统。虽然说现在智慧医疗宣传得非常好，但是要传统领域医疗医生接受这个新鲜事物还需要一个漫长的过程。科大讯飞所独家在做的自动阅卷技术，拿到老师那边去的时候，老师始终会以挑剔或者质疑的眼光来看待。

应该说任何一个方面，人类智能都是人工智能的师傅和竞争对手，所以我们在做人工智能创业的时候一定要想清楚，你和传统做一个WIFI的创新，和做一个什么其它人类不具备能力的技术相比，人工智能的落地会有更多面临的挑战和困难。但是，作为人类徒弟的人工智能，其实它有非常多的优势。如果要充分的发掘，或者说借势于这样一些优势，就能够有效实现人工智能产业的落地，或者说创业的成功。我这里总结了五条，未必是完全，大概可以供各位参考。

第一，人工智能技术可以作为人机，或者其它系统人机接口。因为人自身的能力就只能是人自身的，人机智能可以拓宽交互系统。当手写识别作为发短信，作为人与人之间信息沟通人机接口的时候，它就实现了有效大规模的应用落地。我们现在的扫描识别也是为检索分析做的应用，现在车派识别为什么多起来，是因为停车场收费管理里对车派识别应用有广泛的需求。人脸识别很多时候是为了身份认证和手机支付，这样一种真实的，用户有明确需求的，人机接口才可以做广泛的落地。

第二，随着现在IOT或者传感器技术的进步，利用传感器以及大数据来达到超过人类的智能，这个也是人工智能有效的发展模式。这里最典型的一个例子就是天气预报，以前人还会说夜观天象，现在人都不会了。你想出差直接打开本地天气预报，就能有效知道明天相关天气的情况。包括自动驾驶，包括其它的，为了方便都可以用比人类更多的传感器获得信息输入，有效做出人工智能来超越人类智能，达到更多应用推广落地机会。

第三，相对客观性，或者稳定可传承性。包括语音评测，作文评分，以及一系列的技术。它核心的一条，因为人与人在对同一份试卷阅卷时存在主观性，机器在这方面会更加可观和无感情的。这时候相对机器对于大量人工阅卷而言就有更多的优势，这样才会使相关人工智能技术被老师和学校广泛接受的主要原因。

第四，面向海量任务的不知疲倦。科大讯飞是从语音合成起家，语音合成就是一个典型的不知疲倦合成任一文本，合成海量文本的概念，这个成为它真正落地的原因。

第五，人类学习成本高，使用频度低的产业。比如说多语种翻译，是的，人类可以在多语种翻译上做出很好的能力，但由于学习成本太高，使用频度太低，这时候相关人工智能就会有很好的应用落地。

最后我再稍微讲一下人工智能立地的方向和节奏把握，这也是非常关键的一点。

第一，很多报道都听说机器能够自动做诗，机器自动做曲。如果把这样一种技术创新或者创业，与机器自动阅卷技术相比，其实大家可以直观去想想，机器自动阅卷显然具有更大更广泛的落地机会。大家在做相关人工智能创业时，一定要优先对准现实生活工作中存在的大量重复性的脑力劳动，会更加有效的实现广泛落地和大规模产业化。

另外，我们还是要把握好相关人工智能技术进一步台阶的设计，不同应用场景对同样语音识别技术来说，所要求达到的水平是不一样的。简单来说，手机云输入现在已经达到97%，已经非常好用。相应会议语音转写，因为在会议当中人的争吵，相关的问题，会议语音转写的正确率还没有完全达到应用门槛。当然现在这种发布会，或者这种会议宣讲是可以有效达到语音识别率跨过应用门槛，达到落地机会。所以当你在选择人工智能方向时，不管是人脸识别还是其它方向，一定要想好第一个应用场景是什么，并且集中力量把那个场景攻下来。

最后一个，人工智能和人类智能并不是严格意义上PK和对立的，有很多人机互助的场合和场景。典型来说就是辅助驾驶和自动驾驶这件事情，其实在自动驾驶没有真正商业化的现在，辅助驾驶已经广泛应用在很多场合。在人工智能落地的时候，你可以优先考虑人机结合的落地方式，能够让相关技术更早达到可应用的门槛。

如果大家认真听了前面部分的介绍，应该可以得出一个结论。做人工智能技术的核心技术研发，其实是需要花费非常多的时间、精力和钱的。另外一种方式，这个就是刚才吴军老师所说的，当人工智能技术有进步的时候，有很多飞跃的时候，我们能不能拿着现有人工智能的技术进步，去和传统行业，去和相关的产品进行有效的结合和创新，这方面如果从创业和创新的角度来说，机会其实会更大，特别是相对于小规模的公司而言。

所以，如果你要选择公司做人工智能核心技术的研发，一定要记得类似于像讯输入法这样，一定要有相关的坚守。讯飞输入法我们做了六年，每次都是告诉自己，每年识别率错误率相对下降30%。每次都是坚持在相关方向做了很大的技术投入，才使得最终到了现在这个时点，包括老罗的发布会上大家认可讯飞输入法，或者讯飞后台语音识别具有工匠精神。另外一方面，讯飞也不是那么的自私，我们也把相关核心技术和人工智能技术进步、进展，通过云服务的方式，语音云的具体载体来给很多创新创业团队提供更好的人工智能支撑。

整个讯飞云是2010年首次发布以来，经过六年的发展，已经集聚了7亿用户，上面有11万开发者，以及30亿次日访问的云计算服务规模。我们把所有相关人工智能技术都有效的对外开放，大家基于讯飞云可以在人工智能这个大的行业和领域里实现自己的创新和创业。

最后想强调一下人工智能的无穷魅力，刚才说了人工智能是人类智能，自身智能智慧最后一个需要攻关的。另外一个，即使没有攻关搞定人工智能技术状态下，人工智能无成本复制的能力和持续向前进化的能力也是人类自身所无法比拟。我们都知道相关人的智能随着一代大师的离世，新人的都需要重新捡起来，重新学起来。即使你是英语大师的儿子，单词也要自己一个个重新背起来，这就是人类智慧进步最大的障碍。而人工智能不一样，人工智能是一种技术，是一种机器智能。一旦某一个机器具备97%的语音识别正确率，那么世界上所有机器原则上都可以具备这样的正确率。不管是哪个公司再继续研发下一代语音识别技术，他一定站在97%的指标之上，无成本复制和持续向前的进化能力是人工智能相对人力智能来说非常大的优势，这也是“人工智能威胁论”的主要来源，因为人工智能进化的速度超过人类至少1万倍。

我们也会从现实生活中对未来人工智能越来越习以为常，我儿子今年8岁，在他的眼里，火车就等于动车，我专门告诉他还有绿皮火车这件事情。或者对于他来说所有苹果都是触摸屏，我们现在已经不再夜观天象，直接用天气预报这样有效的人工智能技术。而我们在以前很多时候还会记忆相关地址和路线，现在甚至连走路都直接用地图导航，特别到一个新的地方时。我们原来只是习惯于拼音输入法，后来习惯于手写输入法，现在越来越习惯语音输入。

我们非常相信在不久的将来，车、家电、家居都是可以通过语音的方式跟它进行自然交互。而你说的法语，可能在我这边听到的就是通过语音翻译技术得到了中文。每个人很肯定会有一个虚拟的助理，也许是街上或者办公室里到处跑的机器人。我们会越来越快的，越来越正常的对于人工智能进展和相关习以为常。所以，人工智能的顶天和立地。顶天立地是科大讯飞成立以来一直所秉持的，我们对人工智能方面的追求。我们要有顶天的核心技术，我们要有立地进入亿万家庭人工智能落地的产品。

同时也是我们的方法论，只有人工智能真正落地了，才能真正把人工智能技术推向世界最高峰。相应而言，也认为人工智能技术只有达到世界领先，才可以有效的推动相关技术达到亿万应用的规模。所以对于我个人而言，或者讯飞也是希望和在座各位一起，带着顶天的人工智能梦想，知其然，且知其所以然，脚踏实地，乐观积极的实现人工智能的立地。

让我们一起用人工智能来建设美好的世界，谢谢。