编者按:2016 年 11 月 23 日,科大讯飞举行了年度发布会。在会上,中国工程院院士、欧亚科学院院士、中国人工智能学会理事长李德毅作了主题为「交互认知」的演讲。雷锋网进行了编辑和整理(有删减):
计算机界对计算认知了解的太多,但对交互认知了解的还不够。
今天我想讲一讲交互认知。为什么要研究交互认知?我们还是从图灵测试谈起。图灵测试本质上就是一个交互测试。
自闭症是交互认知障碍的一种典型疾病,自闭症就是在交互上遇到了很多困难。如果现在我们把人换成一个聊天机器人,把这台机器换成一个自闭症患者。我想问:测试者还能区分谁是人谁是机器人吗?这就是图灵测试的瑕疵。
我们看看这样一个对话:你今天吃的是什么?
同样的问题,机器人回答的不一样。一开始它很有礼貌回答:蛋炒饭。后来它就开始解释。如果你还一再的问它:你今天吃的是什么?它就说:「你丫有病啊!」
这体现了聊天人的性格,修养和幽默。这就叫做不确定性的交互,我们需要的不是一个「问题-回答」系统,需要一个活生生的聊天机器人。因此我们看到聊天总是在特定的语境和语义下发生的。
在过去的半个世纪的自然语言理解当中,我们对此是不是关注了太多的语法和语构、或是语境和语用、或者是语言交互中的不确定性?
我们要研究交互,交互认知的外在表现:如何听说、如何看、如何感觉。听说是语言交互,看是图像交互,听是体觉交互。脑认知的内涵应该是三个:记忆认知、计算认知和交互认知,而不是一个。
我们认为研究交互和记忆是有道理的。语言可理解为对交互认知的语义标注,图像可理解为对交互认知的情感标注,体觉可称之为肢体语言。交互认知的度量可用情商和智商表示。
有一个著名的艾伯特定律告诉我们,语义的作用只占 7%,语言的作用占 38%,面部表情和记忆的作用要占到 55%。能不能把这些情感通过语音表现出来?为什么不做这样的情感研究?语音语调是情感的流露,是言外之意。
因此,我们强调做一个好的机器人,首先要有交互能力。
交互认知的不确定性包括:交互触发的瞬间性、交互方式的随意性、交互内容的未知性。这就要求我们把不确定性人工智能研究好。不确定性人工智能要在看似瞬间性随意性和未知性中,发现交互认知的基本规律性,又能体现不确定性的魅力。
与听觉,触觉等相比,视觉主导着我们的情感知觉,并影响我们的思维方式。因此,生物视觉图像交互的情感表达,成为交互认知的核心。
图灵测试有一个漏洞。如果被测试的一方支支吾吾保持沉默或主动插话介入,就可能颠覆测试者的主导地位,也很难区分到底对方是人还是机器人,再次暴露出图灵测试的瑕疵。图灵测试原本是测试对方是否具有人的智能。如果图灵测试的漏洞被多次利用,图灵测试就转化为比拼测试双方谁更睿智的问题,不在乎双方是生物人还是机器人。
因为这个漏洞,我们开始研究交互认知,研究如何突破图灵测试的漏洞。
对话是最直接最便捷的交互,是几乎所有服务机器人的必备,可否把对话机器人作为研究交互认知的突破口?
聊天是浅层次,短时长的对话,也是最通用的对话,聊天也许是在讲废话,但可带来亲和感,在社交生活中不可或缺,不会聊天的对话机器人太乏味。所以,交互认知可从研发「互联网+对话机器人」开始。
从对话的语境和语用入手;
优先考虑情感交互;
强调纯净感,交互感和构想感;
关注交互认知环境中的选择性注意;
研究不确定性交互认知中的客观性,普遍性和积极意义,寻找不确定性中的基本确定性。
对话是所有服务机器人绕不过去的坎。对话机器人自身是活生生的认知主体,不是一个刻板的「问题——回答」系统。充满不确定性和变通,有情感和语言交互能力。我们需要聊天的机器人。利用云模型的不确定性研发对话机器人。
对话机器人的形式化约束有:
特定的对话背景;
对话双方是有个性的机器人;
用动画体现情感交互语音交互和文字交互,话题情感性格等不确定性。
随着对话的深入,不确定性会大幅度降低。所以我们提出不要老是关注语义和语构,我们现在要关注应用和语境。在这种情况下,我们要研发对话引擎。
基于检索搜索引擎生成可选到答句集;
借用机器翻译技术润色答句,保持个性。
有社交的技巧背后是与特定的语用相关。举个例子,一大早睡觉被吵醒,听到楼下有人大喊:
「打死,打死,往死里打!」
「反了,反了,反了你。」
怎么去理解这个语义?到窗户一看,原来是正在指挥倒车。所以我说要研究语用和语境,重视语境和语用。不要老是停留在语义和语构里。说话人的身份、年龄、对话和时间与用语语调、用语习惯,都很重要。
对话一般是两个人的,实际上,还要研究三人对话多人对话和复杂系统涌现中的交互认知。
2006 年,我们研究过掌声之间的交互。人们有过这样不常有的生活经历:音乐厅音乐厅里有一个精彩的节目结束后,观众会爆发出雷鸣般的掌声在很短的时间内,这种嘈杂的掌声会突然转变成有节奏的掌声,似乎有一股神秘的力量驱使观众一致的鼓掌,这是一个典型的复杂系统交互认知导致的自组织同步现象。
一个值得警示的现象:如果连浅层次、短时长的对话机器人的交互认知都做不好,如果机器人不具备最基本的语音交互,图像交互和体感交互能力,中国的服务机器人产业就跳不出同质化,玩具化低端化的怪圈。高开低走,只能把服务机器人行业推入血腥的红海。
协商包括:协商达成共识、协商达成一定程度的共识以及没有共识,但知晓了对方的认知力与下一次交互。共识是交互认知的结果,是认知主体,任何一方单独进行计算或推理,无法得出的新的认知,是计算认知记忆认知替代不了的。
学习包括:一方可从另一方获得新的认知、学习是相互的。人类社交活动中的交互认知,以及人和自然自然人机器人之间的交互认知,大大扩展了三个人一群人,乃至整个人类的智能。
案例一:
机器人来到一扇门前问,这门怎么开?
作为物联网的终端门答:我是一个滑动门。
案例二:智能驾驶中的交互认知
智能驾驶中的交互认知非常重要。
比如无人车上路,老百姓觉得它是幽灵,不敢乘坐,因为它没有交互。驾驶员的环境和周边车辆群体的交互认知。每一个司机都认为是最合理的,在客观上就会造成一个交通拥堵。这就是交互认知的结果。
再比如,两辆人驾车和多辆带有自动驾驶模式的车混合行驶,由于自动驾驶模式缺少交互认知能力,受到人驾车干扰,预设的自动驾驶门槛立马崩溃,几乎全部转为人工驾驶。所以我把它叫做:自动驾驶亦或是个陷阱。
怎么办?我们要让智能车成为可交互的轮式机器人:它是一个认知主体,有一个驾驶脑,同时我们还允许双驾双控。我们允许驾驶位上,可以有驾驶员或者可空缺。
与程序调试,试验和维护人员、与乘客、与执勤交警有交互,如果这样的车不能做到与人之间的交互,那怎么能成一个产品?所以要让智能车成为可交互的轮式机器人。交互认知是非常重要的。
移动互联网的终端已经从 PC 转变为手机,进而转变为机器人,在机器人联网的时代,人工智能是否应该更多地关注交互认知?研究人与人、人与机器人、机器人与机器人或者混合的认知主体之间的交互认知。