蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

2017/07/11 12:06

雷锋网注：2017 年 7 月 7 日至 9 日，由中国计算机学会（CCF）主办、雷锋网与香港中文大学（深圳）承办的 CCF-GAIR 全球人工智能与机器人峰会在深圳如期落地。会议第一天，国内外顶尖学者和从业者各自带来了丰富的行业干货分享，随后两天，GAIR 的机器人、智能助手、金融科技、AI+、智能驾驶等各个专场又为各领域从业者提供了密切交流和学习的机会。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

蓦然认知是近两年在自然语言理解方面表现最为抢眼的公司之一，其扎实的语义理解技术已经为暴风 TV、上汽大通、VINCI 等企业提供了成熟的语音助手解决方案。创始人兼 CEO 戴帅湘曾在百度从事 9 年的自然语音理解，任百度 NLP 主任架构师，并曾带领团队获得百度语义最高奖。

在 CCF-GAIR 大会智能助手专场，戴帅湘做了《对话即应用》的主题演讲，雷锋网对其内容进行了整理，以下为演讲全文：

我今天分享的主题是“对话即应用”，很多人认为这是遥远的未来，事实上它有可能就在我们眼前。

未来只存在于我们的脑海中，是虚构的，但是人天生向往未来。这是人的本性，写在我们的基因里。

“人是为了想象而活着”，我觉得这句话没有错，但是“当未来已来，过去也没有过去”的时候，在时空转换的间隙里，我们的认知和想象怎么调整？

以互联网发展为例，人机交互在互联网发展中扮演了非常关键的角色。每一次人机交互的革新都必然带来革命性的浪潮。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

20 年前，互联网刚开始普及，我们使用键盘、鼠标来操作互联网，这种应用形态很简单，无非就是网页。

大概 10 年以后，到 2007 年，乔布斯发布了具有划时代意义的产品：第一代 iPhone。它完全摒弃了之前的键盘操作，使用了全触摸屏的操作方式，这种转变直接导致当时的两大手机巨头在此后短短几年内迅速衰落，直至退出市场。

这种变化同时带来了应用形态的变化——从之前的 Web 程序开发，迅速转入 APP 程序开发，这种变化也导致互联网时代几大巨头在此后 10 年间逐步衰落。

又过了 10 年，到今天，一个新的时代正在来临。刚才几位也讲到，现在大大小小的公司都开始做音响，音响是否是很好的产品暂时还没有定论，但我们却可以感觉到身边越来越多的硬件开始联网，大家称之为“万物互联”的时代。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

《人类简史》里有一个观点：人本身不具有大规模合作的基因，需要语言和文字来弥补。我们今天制造这么多设备，要想让它们真正和人类大规模合作，对话式语音交互必不可少，也必定会成为主流。我相信在未来的 IoT 时代，语音交互将跨越软件和硬件的边界，在不同的场景下，呈现不同的应用和服务，也就是对话即应用。

即便很多人现在对这个东西还没有概念，但是思考一下，你就会发现这是一个了不起的时代。我们不愿意错过这个时代，所以成立了一家公司，叫做蓦然认知。我们致力于让机器认知世界，认知计算，以自然语言理解为核心，提供信号处理、语音、语义、服务自动对接、一站式自动交互的解决方案，更简单地说，它就是以语义理解为核心的决策引擎，是搜索引擎的下一代。

作为一家创业公司，不管做什么，首先要有准确的市场定位和切入点。对于蓦然来说，我们最先落地和打造的交互场景有家居和车载两大类，这两大类可以合为一个完整的整体。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

家居场景：以电视为切入口

为什么选择家居场景？有几个理由：

家是休闲和放松的场所，我们希望在家里享受后仰式服务，而不是前倾式服务；
家是吃饭，甚至购物的场所，越来越多的人不出家门，从网上购买生活用品。比如吃，你可以不会做饭，但你可能需要获取做饭的信息，可能需要知道提供外卖、团购的餐厅信息。这些信息都可以通过更好的交互方式来提供；
家里的设备越来越多，除了传统的几件，现在又有音响、洗碗机、扫地机器人等，如果想要更好地了解、使用这些设备，需要集中式的交互入口，做集中式控制和使用，这是很自然的方式。

针对这三点，我们设计了三类交互方式：

基于视频内容的交互，主要是针对电视。我们最先是和暴风 TV 合作，刘总（暴风 TV CEO 刘耀平）后面会做具体讲解；
基于生活服务的交互，比如外卖、咖啡、电影票、火车票、飞机票等，都可以通过连续对话来解决；
智能设备控制的交互，这个在技术上比较简单，主要问题在于现在各大厂商的协议不是那么统一。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

车载场景：最适合语音交互的场景

现在业界基本达成的一个共识是，车载是最适合对话式语音交互的场景，原因主要有两点：

人开车时双手、双脚都是被占用的。可能大家经常在报道上看到，女司机怎样怎样......很多人容易被车驾驭，而不是驾驭车，这是很危险的行为；
人在车里的时间越来越长，可能有拥堵的原因，也可能因为人们更喜欢私密的自驾行为。这是完整、连续的时间，而不是碎片化的，充分利用这个时间，用合适的方式和车交互，会给用户带来完全不一样的体验。

车载场景里，交互设计有些差别，行车过程中需要考察路线规划，自动导航，即时通讯，实时路况等，除此之外，我们会更关注行车目的，这对交互会有很大影响。比如你开车去餐厅，我们会给你提供餐厅信息查询、订座服务，如果去机场，就提供机场航班延误信息，甚至可以买机票，如果去商场，就可以查询附近停车位和停车预定服务，当然这些现在只有少数大城市才会有。总之，目的地在车载交互中非常重要。

这两种场景是生活中非常重要的两大场景，但可以通过我们整体的系统，成为一个 mall，从而融合成更大的场景。而要融合如此多功能的场景，需要各种场景间的自由切换，这个过程要有非常复杂的语音交互或者对话式语音交互才能完成。

对话式语音交互是多种技术融合的必然结果。下面我从不同角度来阐述涉及对话语音交互的各个层面：

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

VUI 和 GUI 融合

GUI 本身是一种确定的、简单的、没有后效性的操作；VUI 是发散的、跳跃的，相对模糊，但是可以完成复杂任务的操作。GUI 是让我们适应机器，VUI 是让机器适应我们。只有两者有机结合在一起，对话式交互系统才能发挥作用。什么效率最高，我们就用什么，摇控器效率最高，就用摇控器，语音搜索最方便就用语音。下单和选择过程，其实是非常融合的过程。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

多场景融合

大家多数时候听到的是把垂直场景做深，我觉得这不是根本的。高频场景的确可以快速覆盖，但是真正有效的是长尾场景。对话过程中只满足高频没有意义，只有长尾融合在一起，让用户感受到服务需求在各个地方得到满足，才有可能成为很有效的交互方式。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

设备间的协同

刚才讲到，单一设备里必须有多场景的融合，这之间的融合怎么做？例如，天气很热，我开车回家前，想把家里的空调调到 24 度，走廊的灯打开，这是日常生活中很自然的需求。按照现在的很多框架，实现这些会非常复杂，但是植入我们的系统以后，车机和家庭设备就可以自然融合，和一个设备一样。我们要为用户营造不同设备之间迁移、无缝连接、包裹式的经验。这比多场景融合更容易实现。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

知识和服务的融合

大家看到我们谈论多轮交互和单轮交互，但在我看来，并没有什么单轮对话的存在。语音早期的应用集中在控制、开灯、关灯、调音量这些方面，它们的输入方式不是对话，而是输入法。真正有用的对话是双向的，系统理解以后做适当的动作，不理解的话就做推荐动作或反问动作、澄清动作，这样才能形成完整的、任务式的、有目的的、优化的对话，而不是随意的。

比如，你今天晚上想看电影，可能会说今天要去的某个电影院、某场电影、某个名字，但这样说的人太少，系统顺利完成任务的概率很低。你有目标，但是不确定怎么达到这个目标，这时交互式对话会引导你到另外一步，比如电影系统会给出最近在上映的电影，然后基于个人爱好给出合适的推荐；等做完选择后，你还得注意，电影院在哪里，自己在哪里，你们之间的关系是不是能让你快速抵达电影院？所有这些完成以后，你还有一个步骤，就是决定要几个人去，这个要定做，不是我们预先定义的。多轮对话的目的是目标不变，但可以打乱所有步骤，这是知识和服务的融合，是可以做到的。我们现在做得很好。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

技术的融合

AI 本质上是技术的集合体，不是单一的模型，也不是单一的方法，而是多项关键技术的融合。

决策引擎中有三类，一是认知计算模型，主要针对知识推理建模。知识推理方面，机器在学术和工程上都可以做得比较好。二是正确理解，针对语义建模，还没有定论，但是可以做，我们现在做得也比较好。三是内容学习，这是大家拼命想做的，深度学习和各种 DNN 结构等。

对对话式交互来说，你可能没有大量数据，连数据的序列都没有办法定义。怎么拿到数据？学习很重要。对问题建模，提出自己的独特方法，解决小数据建模的问题，这非常重要。当所有一切都可以运作的时候，再采用深度增强学习，我觉得这是可行的。AI 里面很早就提到增强学习是实现自主学习的有效途径。

要打造完整的对话式语音交互系统，涉及到完整的环，最下层还会涉及到信号处理。陈总（声智科技 CEO 陈孝良）讲了很长时间信号处理和硬件、芯片的关系。上面一层是语音和文字之间怎么相互转化，语音识别现在相对也已经比较成熟。再上面一层，现在简称为语义理解，但实际要比这个复杂很多，真的要打造这个系统还需要往前走很多步：语义理解，对话系统，学习系统，自动服务对接......自动服务对接的目的是使场景快速迁移，服务快速上线，作为一个实用系统来说，它非常重要，但很少被提及。

最后是语言的生成。

我们公司的核心业务是第三部分，但是我们和各个公司合作，对整个闭环都有完整的解决方案，包括和陈总在信号处理方面的合作。

蓦然认知 CEO 戴帅湘：对话式语音交互将无处不在 | CCF-GAIR 2017

这是一个相对详细的技术方案展示（上图），黄色部分是我们现在能提供的几大类，云服务、语义、语音和设备控制，然后在设备端会以不同形态植入不同程序，以便于驱动设备和人进行流畅对话。

所有这些融合的技术方案，目的只有一个，就是让我们在对话时完成应用。

我们可能感觉不到应用的存在，但是它的确无处不在。

总结和展望

在对话即应用的时代，有哪些区别于以往的显著特征？

一是自然对话主导交互，交互的方式、过程和结果都以对话方式呈现。

二是应用无需安装，完全服务化，轻量级，用户获取和使用的成本大大降低。

三是不同场景下的应用自动融合，用户不需要使用那么多 APP，也不需要打开那么多网页，使用效率大大提升。

四是服务变得有偿化，和人的服务一样，高质量的虚拟服务本质上也是商品，应该获得高价格的回报。

所有这些如果实现的话，我们的开发成本会降到很低，使用效率则会提高很多，机器和设备的智能会极大体现出来。这样一个时代是机器逐步学习、模仿人，并最终超越人的时代。

专题

GAIR 2017 查看更多文章