雷锋网注:7 月 8 日,中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)承办的 CCF-GAIR 2017 全球人工智能与机器人峰会进入第二天,在智能助手专场,蓦然认知 CEO 戴帅湘做了《对话即应用》的主题演讲。
戴帅湘曾任百度主任架构师,拥有 9 年自然语言处理的行业积累,2016 年 5 月他创办蓦然认知,延续其既往的研究方向,专注为企业提供完整的语义理解方案,目前产品落地主要集中于家居和车载两大场景。雷锋网整理了其今天的演讲内容,并做了不改变原意的调整。
开头的背景铺垫,戴帅湘先就贯穿互联网发展过程中人机交互的阶段做了划分:
第一个阶段,20年前,即互联网刚刚普及时,用户通过键盘、鼠标实现与机器的交互。
第二个阶段是在触摸屏手机出现以后,用户摒弃了之前的键盘操作。这种变化也带来了应用形态的转化,行业从 Web 程序开发迅速转入 APP 程序开发,也是在这一背景下,此后的10年间,互联网几大巨头迅速经历洗牌。
到了今天,我们开始面对第三个阶段,即语音交互的阶段,眼下,各大公司纷纷推出自己的智能音箱品牌,硬件连接,行业称之为“万物互联”时代。
“今天的设备要想和人类进行大规模合作,对话式语音交互必不可少,并且必定成为主流。未来的IoT时代,语音交互将跨越软件和硬件的边界,在不同场景下,呈现不同的应用和服务,对话即应用。”
蓦然认知的业务集中于语义理解为核心的决策引擎。在产品落地和市场化方面,则主要聚焦于家居和车载场景。
家居场景:以电视为交互切入口
和很多人一样,戴帅湘也认为家居场景下必然会有一个家居控制中心,“连接接听设备,需要集中式的交互入口,让它做集中式控制、使用、命令。”不久前,蓦然认知还与暴风 TV 合作,以自己的语义理解技术为其提供语音交互的完整解决方案。
车载场景:最适合对话的语音交互场景
车载是最适合对话的语音交互场景,这是目前业界的一个基本共识。戴帅湘表示,除了行车过程中的路线考察,路线规划,行车导航等,蓦然更关注的是行车目的地,因为后者直接连接服务,对交互的影响更大。
“这两种场景是生活中非常重要的两大场景,它们可以通过一个整体系统,融合成更大场景。而要融合如此多功能的场景,并达成各场景之间的自由切换,必须要有非常复杂的语音交互。”
“对话式语音交互是多种技术融合的必然结果。”
VUI + GUI 融合
GUI 本身是一种确定的、简单的、没有后效性的操作。VUI 是发散的、跳跃的,相对模糊,但是可以完成复杂任务的操作。GUI 是让我们适应机器,VUI 是让机器适应我们。
多场景融合
把垂直场景做深并不是根本的。高频的场景可以快速覆盖,但是真正有效的是长尾场景。对话过程中只满足高频没有意义,只有长尾融合在一起,让用户感受到服务的意图在各种地方得到满足,才有可能成为很有效的交互方式。
设备之间的融合
按照现在的很多框架,实现这种方式会非常复杂,需要给用户制造不同设备之间迁移、无缝连接、包裹式的经验。
知识+服务融合
真正有用的对话是双向的。系统理解以后做适当的动作,不理解的话做推荐动作、反问动作和澄清动作,这样才能形成完整的、任务式的、有目的、优化的对话,而不是随意的。
技术的融合
AI 本质上是技术的集合体,是多项关键技术的融合,不是单一的模型,也不是单一的方法。
自然对话主导交互,交互的方式、过程、结果都将以对话方式呈现;
应用无需安装,完全服务化,轻量级,用户的获取和使用成本大大降低;
不同场景下的应用自动融合,用户不需要使用那么多 APP,不需要打开那么多网页,使用效率大大提升;
服务变得有偿化,和人的服务一样,高质量的虚拟服务本质上也是商品,应该获得高价格的回报。
所有这些如果实现的话,企业的开发成本会降到很低,使用效率会提高很多,此时,机器和设备的智能将极大地体现出来。
“这个时代是机器逐步模仿、学习人,并最终超越人的时代。”