7月8日,由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的 AI 盛会——全球人工智能与机器人峰会(CCF-GAIR)上,哈尔滨工业大学刘挺教授现场讲解人机对话技术进展历程。
刘挺表示,人机对话概述,就是人机对话的基本框架,包括语音接入、语音输出,或者说文本直接交互。其中包括三个重要的模块——语言理解、对话管理、语言生成。
从学术界角度切入,刘挺将人机对话的历程分为三个阶段——语音助手时代、2014年进入聊天机器人时代,以及场景化的任务执行时代。
2011年,在技术尚未成熟时,乔布斯临终前在iPhone4S中推出Siri。2014年,据雷锋网了解,中国各厂商纷纷效仿推出语音助手,与此同时,也有很多企业将语音助手团队解散。主要原因,刘挺解释道:
第一,技术尚不成熟,听得见,但听不懂。以至于很多本来严肃的服务,最后变成对其他语音助手的调戏。语言并不总是最自然的沟通方式,它需要私密的环境,有时候还需要图像界面进行配合。
第二,语境的建模和机器人自身建模方面,还有很多困难。比如你问机器人,“你今年多大了?”“我5岁了”,“你结婚了吗?”“我结婚10年了”。这就自相矛盾,因为机器人建模很困难。
第三,在具体应用上,用户留存率并不是很高。虽然用户量大,但持续跟机器人聊下去的并不多。
而就人机对话功能方面,刘挺对雷锋网表示,主要有四大功能——聊天、知识问答、任务执行、推荐。
人机对话系统层面,分为三方面——自然语言理解、对话管理、自然语言生成。刘挺从功能方面切入技术的发展状况——聊天上,最早是在上世纪60年代有人研究出与精神病患者聊天的机器人,之后,腾讯推出小Q机器人,微软小冰等。
单轮对话的进展比较技术化,发展趋势不仅通过算法解决问题,且要确定一个主题借用外部资源,把话说得更丰满。
多轮对话方面,聊天与搜索有很大区别。虽然目前搜索也启动多轮搜索,但真正的多轮对话需要让人感觉到这是一个完整的对话,其中包括深度学习与强化学习的融合等多方面技术。
从Siri开始,微软、Facebook、亚马逊、百度等大企业,不但自己做智能助手,而且提供对话平台,即对话操作系统或对话人工智能。
对话型技术发展,经历普通的时间、地点等基础要素,要之后又CRF与LSTM,以及之后两者结合。对话生成,略过模板阶段,进入序列深度学习。
刘挺以哈工大实验室研制的名为“笨笨”的系统为例,功能包括聊天、知识问答、任务执行、推荐。多轮对话是基于DQN进行。这个优化和任务执行的优化正好反过来。聊天的优化是要尽可能让这个聊天能继续下去,让话题轮数更多。
刘挺在雷锋网CCF-GAIR现场表示,人机对话是自然语言处理发展的一个高峰,从历程上分为四个阶段——从形式匹配到语义匹配,到文本推理,再到言外之意。目前刘挺教授所在哈工大实验室具体布局工作,主要分几个方向,第一,基础架构、LTP;第二,人机对话;第三,篇章划分。