专访讯飞王士进：从底层AI技术解析，智能音箱是个伪命题吗？

2017/05/20 11:00

2010年10月28日，讯飞语音输入法发布，当时，还没有微信。6年之后，著名“相声演员”罗永浩在锤子M1的发布会上展示了这款输入法，这次，讯飞以一种意想不到的方式刷爆了朋友圈。

虽然讯飞在2014年的时候推出“超脑计划”，开始全面布局AI的各个领域。但是，这家成立于1999年、市值超400亿的公司如今在很多人看来，依然只是一家做“语音输入法”的公司。

科大讯飞在AI领域有哪些布局？
怎样看待语音助手？
如何继续提高语音识别的准确率？
智能音箱是个伪命题吗？会成为智能家居的中心吗？
如何评价亚马逊的Echo Show？
机器转录为何依然难用？
技术与BAT相比如何？
......

带着这些疑问，雷锋网采访了科大讯飞研究院副院长王士进。在看完这篇文章后，你会了解到，在AI领域，科大讯飞到底做了些什么？他们对整个行业又有着怎样的看法？

专访讯飞王士进：从底层AI技术解析，智能音箱是个伪命题吗？

王士进：博士，科大讯飞北京研究院院长，兼科大讯飞研究院副院长。2003年本科毕业于中国科技大学，2008年博士毕业于中科院自动化所，长期从事语音、语言、人工智能方向研究，主持的语音评测技术国内首次应用大规模英语口语考试，主持的机器翻译曾两次获国际比赛第一名。作为主要负责人参加了863计划重点项目、工信部电子信息产业发展基金项目等项目，在相关国际会议和期刊上有多篇学术论文，拥有十几项专利和软件著作权。

雷锋网对采访全文做了不改变原意的删减：

一、语音识别和自然语言处理

语音识别

雷锋网：科大讯飞在语音识别方面有什么进展？

王士进：语音合成方面，我们从去年年底开始发力，利用深度学习的方法实现了新一代的合成系统。现在，只需要目标用户半个小时到一个小时左右的录音，就可以合成这个人的声音，并且自然度非常高。

语音识别方面，讯飞正面向IOT领域积极拓展。在IOT时代，面向复杂场景的语音识别是一个非常重要的点。我们在持续优化车载环境、家居环境里面语音识别效果。

同时，“讯飞听见”系统里面向实时会议和演讲同传的效果也有了更进一步的升级。第一个就是转写的准确率在持续提升，第二个，我们会结合讯飞口语翻译的技术，实现会场演讲的多语种同传。

雷锋网：讯飞语音识别的准确率已经做到什么程度了？

王士进：语音识别准确率跟场景和任务的关系非常大。如果说具体的数字，其实可能并不太客观，比如在手机APP的场景里面，我们可以实现97%的准确率。像会议速录这种场景，我们也能达到95%的准确率。

雷锋网：如何再继续提升？

王士进：要解决这个问题，我觉得可能取决于以下几点：

第一点，从语音模型建模的角度来说，怎么使得模型更精确？一方面是数据，一方面是模型算法。所以我们还在持续迭代中，原来我们只使用有监督的数据，相当于是人工标注的数据，这块数据始终是有限的，现在我们在考虑怎么使用大量无监督的数据去辅助有监督的数据，使得这种模型更加精确。

第二点，从语言和语义出发。比如有一些识别错误，我们人一眼就知道这个地方是错的，错在什么地方。所以我们现在希望把自然语言处理技术和领域知识相结合。比如说，如果提前知道这是一个教育相关的会议，那么怎样结合跟教育领域相关的知识，使得语音识别的一些错误可以通过知识和模型进行修正。

自然语言处理

雷锋网：自然语言处理（NLP）这一块呢？

王士进：NLP方面，讯飞从2014年开始提出“讯飞超脑计划”，同时我们在2015年承担科技部863的高考类人答题项目。在NLP这块，我们主要在做包括语言理解、知识表达、联想推理、以及自主学习方面的相关工作。

在NLP里面，其中一个工作是关于知识的构建和表示，我们参加了NIST KBP的比赛并获得了第一名，第二个工作是现在业界认为比较难的常识表示，我们提出了深度联想模型，并参加了第一届winograd比赛，获得了第一名。

第三个工作：知识图谱构建以后，如何为精准的问答去做帮助？我们最近在做一个非常重要的课题，叫机器阅读理解，给定一篇或者几篇文章，对于这里面的任何一个问题，机器要能够给出精准的问答。

以上是我们在自然语言技术上面做的一些工作。

雷锋网：自然语言处理这块，您觉得它主要的难点是什么？

王士进：自然语言最大的处理难点就是来自于它的歧义，怎么去消除歧义，在于如何引入知识和表示知识，这块是我们正在积极探索的。

雷锋网：会采用哪些最新的技术去解决这些问题？

王士进：技术的话主要是以下几点：

第一点就是语言的深度语义表示。以前我们在自然语言处理时经常用到词表，通过词表去区分不同的词和语义。原来离散表示最大的问题就在于词跟词之间的语义它会表示不出来，现在通过深度学习产生的Word Embedding，其实上就是语义矢量，能更好的表示词，这是现在NLP中一个核心的技术。
在获得语义矢量之后，可以更精准的去做知识的表示、推理等任务。比如，我们原来的推理其实更多是符号层面的一些推理。符号层面的推理有一个非常大的问题：由于歧义和知识没办法表达，所以说这种推理总是有限的。但是我们现在用深度语义，使得这个问题有了被解决的可能。语义矢量表示为基础的自然语言处理框架，使得NLP领域很有可能会实现非常大的一个突破。

语音助手

雷锋网：科大讯飞的语音助手做的怎么样？

王士进：讯飞在四年前就开始布局语音助手，和咪咕数媒一起推出的咪咕灵犀经过几年的发展已经在本土语音助手排名第一（注：易观国际数据），并且讯飞有非常大的一个团队在做人机交互，也就是我们的AIUI系统。我们认为这里面需要有几个核心功能：

第一个核心功能跟语音识别效果相关。我们在智能家居的环境里，在车载的环境里，在其他很多的场景里都在持续优化语音识别的能力。

第二个就是语义纠错和语义理解功能。语音识别变成文字这只是第一步，第二步是怎样结合知识、常识，怎样结合上下文，去对用户的内容作出更精确的理解，并对错误进行纠正。

但是这里目前有一个悖论，因为从用户的角度来说，他们希望的是一个无所不能的助手，但是从现代技术的角度来看，我们在一些垂直的领域和场景才能做到实用。

第三个就是多轮对话。多轮对话其实更多地也是结合上下文和垂直场景，以此在垂直场景里面打造完全一个可以更智能的助手。

雷锋网：做语音助手的难点在哪儿？怎样看待其他的语音助手？

王士进：首先语音助手从提出理念到现在，其实已经经过了几代。

最早第一代是以功能性为主，比如说拨打电话，发短信，类似这样的一些基础功能。大家发现，这里面可能还会有一些问题，它并不是人用手机的刚需，因为无论是电话也好，短信也好，基本上用触控的方式已经很方便了，特别是苹果手机出来了以后，所以说它不是一个刚需。

再者，当时那个年代，语音交互并不是一个普遍被接受的模式，我们很少看到有人用，因为大家总觉得语音是一个相对比较私密的事情，所以很少有人在公共场合下面去用语音跟机器做交互。

第二代，包括讯飞在内，很多语音助手都引入了闲聊，后续的微软小冰等采取的其实也是这样的策略，使得很多人愿意去调戏语音助手，这个概念也火了一段时间。虽然里面也有一些简单的知识问答，但更多的是以闲聊为主。

现在则是第三代，经过前两轮的思考以后，用户对语音助手有什么样的期望呢？我们认为，在语音识别、视觉识别准确率已经这么高的情况下，现在的语音助手可以以任务为中心，协助人在一些垂直场景里面，去做一些更真实的应用。

我们AIUI系统的多轮对话，其实也是想围绕任务为中心，通过这种多轮的人机交互的形式，无论是人还是机器发起，满足用户的一些真实需求。

雷锋网：以任务为中心的，像一个个APP那样？

王士进：对，类似于一个APP的功能。亚马逊的Echo为什么这么火？因为亚马逊把垂直领域扩展的功能开放出来了，APP开发商、服务厂家能够定制自己的服务，使得亚马逊这个庞大的平台可以承载越来越多的功能，所以我觉得这是大家都非常认可的最核心的一点。

雷锋网：讯飞在车载语音助手方面的进展如何呢？难点在哪？

王士进：车载这块讯飞进入的更早，因为车载离产业更近一点，这种交互方式也更刚需一点。

车载方面，讯飞主要侧重两点：

第一点，识别效果，在车载情况下，怎么把语音识别做好。车载噪声太大，包括风噪、胎噪等，对识别会造成很大的影响。
第二点，怎样在车载的几个垂直场景下把交互做到好用？包括导航、音乐等几个主要的功能。其实，更多的还是面向车载里面的几个主要应用场景做优化。

智能音箱

雷锋网：有人认为智能音箱在中国其实是个伪命题，您觉得它的前景如何？

王士进：我认为带引号的智能音箱一定是刚需，什么意思呢？将来智能家居一定会有一个中控来解决这个问题，但是不是音箱，是不是不带屏幕的音箱？这个还不好说。现在业内也并没有一致的意见，如果有一致意见的话，也就不会有各种形态的类似产品推出来了。

雷锋网：智能音箱会成为智能家居的中心吗？

王士进：其实这个事情大家都不太好判断，大家首先觉得将来家居一定会有一个中控系统对吧？这个中控系统可能有几种类型。

一种就是现在大家所说的以音箱为中心，至少现在很多厂家都已经在做这一方面的东西了。还有一种可能是以彩电为中心，它也有一个好处，除了语音交互，它还有视觉的交互。也有人认为，家庭智能网关是交互的中心，因为家里所有硬件互联可能都要通过一个网关。

但我觉得这个可能更多是让用户和市场进行选择，不管是哪种类型的设备，大家都觉得使用便捷的人机交互做承载是一个趋势。

雷锋网：亚马逊的Alexa Skills是一个趋势吗？讯飞未来会不会做自己的技能商店？

王士进：Alexa的技能商店从长远来看是一个趋势，讯飞现在通过讯飞开放云，把我们的能力开放出来，通过众多的合作伙伴去构建这种技能商店。

在智能家居场景中，可能大家都在各个垂直领域去做各种类型的尝试，因为现在的技术没办法做成通用的服务。通过一段时间技术和资源的沉淀之后，我们可以提供更通用的服务，构建一个更好的生态。

雷锋网：带触控屏的Echo Show会是未来的一个趋势呢？其他厂商会跟随吗？

王士进：其实我觉得这个也并不一定。从屏幕趋势来讲，我认为有两个趋势，

第一个趋势就是所有的设备可以把屏投到家电的大屏上去，而不一定要在Echo上面做一个多大的屏幕，家里存在很多有屏设备。
第二，在无屏的场景，我们也可以通过VR/AR等技术来展示内容。

机器转录

雷锋网：机器转录跟人工转录的差别还是很大的，为什么会出现这样的情况？它的难点在哪儿？如何解决？

王士进：语音识别有传统的两个分类，一个是听写，一个是转写。

听写很简单，因为（听写的时候）我知道是在跟机器沟通，所以无论是讲话的语速，讲话的流畅程度，还是语言表述方式，我都会去配合机器。现在大家号称语音识别的准确率在95%以上的，基本上都是在这种场景下，因为人会去配合机器。

但现实中其实更多的是正常交流这种场景，这里面会有哪些比较大的问题呢？首先，噪声是比较大的问题。其次，一些方言的夹杂，甚至多语种的夹杂，比如很多人在讲中文的时候会讲英文，这也一个问题。

除此之外，还有不流利的现象存在。一个相当于读新闻，一个是口语交流，两者不太一样。其实我们人跟人之间交流，有些东西要用到语意和上下文的信息，才能够使理解更加准确。

由于这几种类型问题的存在，使得机器在转写的时候，效果跟听写会有一些比较大的差距，而且最早的时候差距是非常大的。所以说大家可以看到，其实语音识别最早在听写里边应用的比较好。但是在转写里面，之前一直没有厂家敢做这方面的尝试，这块我们讯飞也是在2015年的时候，大幅提升了这个技术的水平。

那会儿我们把识别率能够做到接近90%左右，90%基本上大家就能看。但是，90%距离我们真正最后转写，还有10%。10%感觉好象比较少，但其实仍然有很大的影响。

现在这种使用人机辅助的场景，已经比之前的那个好很多了，我们现在能做到95%左右的水平，可以让人更高效地录入信息。

雷锋网：机器转录未来能够完全取代速记员吗？

王士进：从长期来看，无论是语音识别也好，机器识别也好，它都是概率体系。概率体系下，它要完全取代人，从目前来看，这里面可能是有些困难问题的。

我们跟行业结合，也做了各种各样的东西，我们希望它跟人可以形成一个有效的人机协同，使得人可以更高效的完成某项工作。

机器翻译

雷锋网：讯飞的机器翻译和谷歌翻译相比如何？

王士进：讯飞主要是着重把自己的机器翻译的能力跟语音识别的能力绑定的比较深，所以我们主要是侧重于口语翻译，包括我们日常交流、出国旅游的场景，还有会议转录的场景。在这些场景下，我们的效果比谷歌要好很多。谷歌最擅长的是把一种语言的能力扩展成非常多的语言能力上面去。

讯飞翻译支持的语言其实并不太多，所以我们要做一个语言翻译，就会想在一个语言上把它做好。所以在同样的数据下，理论上我们的效果一定会比谷歌强。

雷锋网：机器翻译准确率提升的难点在哪儿？未来有可能完全取代人工翻译吗？

王士进：翻译涉及到语言和语义，难度比识别会更大一点，比如翻译一个句子，不同的上下文可能使得整个句子的表述都不太一样。

从这个翻译技术上来讲，虽然说大家用了很多神经网络相关的技术，但其实语义理解的并不是那么深刻的。现在主流的是end-to-end技术，它本身就是一个黑箱技术，通过大量数据的学习实现翻译的能力。

从精度上来看是有一些提升，在大部分场景里面，可能已经满足了大部分用户的需求，比如你要去国外做一些简单的沟通，只要是非商务的，用现在口译软件，基本也能解决问题了。但是怎样做更精准的回答，怎样做到雅，目前来说，技术上还存在一些困难的。

雷锋网：未来有什么提升的办法？

王士进：还在探索的阶段，比如有些人在研究通过深度学习构建更精准的语义表示，有些人研究更准确的翻译模型，还有人研究深度学习模型跟传统知识模型的结合等。

机器口语评分

雷锋网：对英语口语评分的产品做的怎么样了？

王士进：讯飞的口语评测已经产品化了。我们最早是从2009年开始研究口语评测，像朗读、或者读单词，读句子、读篇章这种类型的封闭式体型，是比较好评的。最关键就是看音准好不好？有没有读？然后从这个封闭式题型扩展到开放式题型，设立很多自然语言相关的技术，使用这些技术机器去做主观题型的自动评分。

我们现在口语的自动评分技术，在广东省的高考、江苏的中考以及全国多个省市地区的英语口语考试都有应用。

雷锋网：怎样实现对英语口语考试进行评分？

王士进：这个分封闭式题型和开放式题型。对于封闭式题型，机器主要提取口语的几个主要特征，包括完整度、发音准确度、流利度、韵律等，然后使用学习到的参数去进行评分。对于开放式题型（主观题），除了刚提到的那些特征，机器还要去学习评分专家的语义知识。机器会要求专家一起先确定一下评分标准，同时按照这个标准可能要试评标杆卷，然后机器就从这里面去学习人是怎么评分的。

我们知道不同的考试评分标准是不太一样的。机器会自动学习优秀老师对这些标杆卷的评分，从而形成评分的标准模型，然后拿这个评分模型对剩下的试卷进行评分。

雷锋网：判断用户的发音是不是标准，给出发音建议，讯飞用了什么技术？

王士进：关于语音是否标准，讯飞在最早做汉语水平等级测试的时候就已经开始研究，这个技术叫CALL（注：Computer-assisted language learning，计算机辅助口语学习，核心是发音评测技术），讯飞在汉语和英语的评分上做了很多研究工作，包括判断发音是否准确、是否流利、韵律是否准确等。

二、计算机视觉

雷锋网：讯飞从什么时候开始做计算机视觉的，为什么会做计算机视觉？

王士进：应该是从2010年左右开始做的。现在在深度学习发展起来后，语音所要用到的底层的技术和图像所要用到的底层技术，可以说是非常接近的。为了完善讯飞整个感知智能系统，同时也因为业务的需求，讯飞开始做机器视觉，主要研究内容包括人脸识别和医学图像处理。

雷锋网：语音和视觉，得哪个更有前景一些？两者未来能否结合起来？

王士进：首先从前景来说，两个的市场都特别大。从结合上来说，可结合的地方很多，比如说我们所谓的智能安防里面，怎么去结合人脸识别和语音识别共同去做各种类型的检测。身份认证方面，也有基于人脸和声纹的共同的身份认证。

雷锋网：讯飞在医疗领域有做了哪些工作？

王士进：讯飞在智能医疗这块主要有三条路：

第一条路就是通过智能语音方便医生实现电子病例的录入；
第二条路就是基于视觉的辅助读片；
第三个是基于医疗认知协助医生做辅助诊疗，有点像IBM的沃森。

此外，我们还做了医考机器人，会阅读大量医学的知识，包括医生诊疗的方案，以及大量的医学书籍，从而形成一个相当于是医疗认知的大脑，这样就可以针对病情自动形成一些治疗的方案。

雷锋网：在医疗领域遇到了哪些困难？

王士进：目前做智慧医疗，最大的问题可能来自于数据，也就是电子病例。第一，医疗数据更隐私，怎么合理、合法地采集和获取到这些数据，目前来说还是有困难的。第二，医疗数据像一个个孤岛，没有连接起来，其实这也跟隐私有关系，不同的医院之间，可能会存在信息孤岛，一般不会打通。

三、未来突破和应用

雷锋网：跟谷歌、亚马逊、BAT等巨头相比，讯飞的人工智能技术如何？

王士进：总体来看，各公司都是围绕自己优势的业务领域布局人工智能，我觉得讯飞相比于谷歌等巨头：

第一点，讯飞其实在很多相关的业务厂家里面，相对做的更深一些；
第二点，因为讯飞在行业里面扎的比较深，而且更懂行业，所以讯飞能够把这个技术组合用好，为行业提供完整的一个解决方案。

比如一些互联网公司，它们可能更多的是提供一些通用的基础的产品和技术，类似于搭积木，有可能用上这个积木以后，在行业也有不错的效果，但是讯飞专注做相关场景，所以我们是希望在每个应用场景里面，能够把效果做到极致。

雷锋网：最近有没有用到什么最新的技术或者算法？

王士进：目前比较新的一些，我觉得可能是以下几点：

第一点实际上是对一些传统的神经网络模型（包括RNN、CNN）的持续优化。
第二点就是无监督的学习，包括刚才提到的GAN相关的东西，以及基于GAN各种扩展的算法，这个其实用的还是蛮多的。

雷锋网：未来还有哪些突破的点？

王士进：我个人觉得是两点：

第一点，到了IOT时代以后，这种交互场景一定是更复杂的，在这种复杂情况下，怎样做到更好的语音识别？我们认为，未来需要软硬件结合的整体解决方案。如果只通过软件的话，它的很多的信号叠加以后，噪声就已经形成了，就没办法了。如果通过这种硬件，比如说麦克风阵列或者其他一些方法的话，就可以在信号层面可以做更多的一些处理，有可能会使语音识别效果更好。
第二点，因为现在自然语言处理技术，本身也在突飞猛进，怎样使用更多自然语言的技术去协助做好语言理解，这个应该也是一个突破点。比如我们一个个领域，或者一个个垂直场景，逐个突破，从而慢慢形成知识的积累，使得机器未来有可能与更多的、更通用的场景做结合。

同时，怎样围绕不同行业的特点去形成一个整体解决方案，并且能够解决真正的问题，我觉得这也是下一个阶段要做的一个重点。

雷锋网：未来人工智能有哪些落地场景？

王士进：从行业和产品结合来说，我们认为人工智能，其实有两大落地的场景：

第一个就是使用语音技术和自然语言的技术，使得我们人机的沟通更便捷，可以实现接近人与人之间的沟通效果。现在的智能家居、车载、手机交互都是这类场景。
第二个就是使用将语音技术、图像技术、自然语言的技术组合起来，跟行业进行深度的结合，学习行业领域的专家知识，来解决行业里面一些经典的问题。

比如说教育领域，就可以采用认知智能技术，使得它可以学习优秀老师的评分经验，可以对主观题进行自动评价，可以对它口语的内容进行自动评价。同时，我们能够采集学生的过程化数据，能够知道这个学生精准的画像，然后就可以向他精准推荐自适应学习素材。

比如说，在司法领域里面，我们在跟最高法院合作，通过自然语言处理技术做辅助量刑。智慧医疗这块，我们也在使用智能语音、智能图像、还有认知技术，辅助医生来做病情诊断。

专访讯飞王士进：从底层AI技术解析 ，智能音箱是个伪命题吗？