“会说话的人，一开口就赢了”——语音交互中的机器话术研究

语音百度

作者：Dude

2018/04/24 17:08

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

“如果机器在某些现实的条件下，能够非常好地模仿人回答问题，让提问者在相当长时间里误认它不是机器，那么机器就可以被认为是能够思维的。”

—— 阿兰·图灵

“一个人的成功，约有15%取决于技术知识，85%取决于口才艺术。”

—— 戴尔·卡耐基

雷锋网按：“与机器像和人一样对话”大概是人类对人工智能最初的设想，也是人类希望在人工智能领域实现的目标。本篇文章转载自百度人工智能交互设计院，着重于语音交互中的机器话术研究。

以下为正文内容：

在不少科幻电影或小说里，人工智能可以和人自然交流，甚至可以谈情说爱（如电影《her》中的萨曼莎）。但我们不得不承认，现实和理想差距很大。现在的人工智能虽然已经“可以说话”，但大多数都“不会说话”，我们经常可以听到“这个问题我还理解不了，如果你想……，可以这样对我说……”。

为了教会机器“像人一样说话”，人们在语音识别、自然语言理解、语音合成等诸多方面进行了大量探索，但这些探索主要集中在技术维度，而对机器话术涉猎较少。

在汉语中，“术”有技艺、方法之意，话术即指说话的技艺和方法。和技术相比，话术更偏艺术和人性。乔布斯说“只有技术是不够的——技术与人文艺术结合、与人性结合，才能带来让我们内心喜爱的结果”。因此，我们本次从用户视角出发，尝试从艺术和人性的角度对话术进行探索。

研究主要包含以下内容：

话术设计研究：我们如何做的
话术设计原则：用户关注什么？哪个更重要
话术设计建议：原则如何指导话术设计

一、话术设计研究：我们如何做的？

当下的话术研究多从研究者视角出发，原则主要源自研究者的日常观察、哲学思辩和专业判断。本次，我们从用户视角出发来探讨话术，研究过程如下：

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

1. 案头研究

我们对人与人的对话结构和对话原则进行了系统梳理，特别推荐Grice的“合作原则”（出自《逻辑与会话》演讲，1967）和索振羽的“得体原则”（出自《语用学教程》第二版，2014）。这一步至关重要，它加深了我们对“对话”的理解，这些原则也成为我们设计实验话术时的重要参考依据。

2. 对话场景设计

为覆盖尽可能多的场景，我们系统梳理了语音交互的典型场景，如听音乐、问天气、家居控制、生活服务等。同时，每个场景下也细分了机器的不同状态，如是否听清、能否识别、是否有能力满足等。

3. 具体话术设计

对话场景梳理清晰后，我们针对每个场景设计实验所需话术。话术来源主要有二，一是主流语音交互产品的现有话术，二是研究者基于人与人的对话原则撰写而成的话术。

4. 话术实验

上述准备完成后，进入正式实验阶段。在实验中，我们创设了各类场景（具体场景见“对话场景设计”部分），并且模拟了真实的人机对话过程（所有实验话术均转为语音合成音进行播报），要求用户基于真实体验对不同场景下每类话术的喜好度进行评价。

同时，我们使用了“参与式设计”，以“假如你是机器，你会如何回答”为起点，引导用户更深地参与到话术设计中，共同探讨实验话术以及更为理想的表达方式。这一过程使我们获得了大量源自用户的鲜活话术，也使我们能从更丰富的角度挖掘用户构建话术的原则、方法与技巧。

5. 设计原则提炼与验证

基于案头研究和实验发现，我们提炼了初步的设计原则。之后，要求用户对原则的可理解性、全面性、适用性等进行评估。经过多轮评估，我们不断调整原则，最终获得了现在的话术设计原则。

二、话术设计原则：用户关注什么？哪个更重要？

我们发现，在用户心中，好的话术要兼顾理性和感性原则。理性原则体现在“机器的话是有用的”，话术应该是以目标为中心、准确、简洁的；感性原则强调“对话过程令人愉悦”，话术应该是自然、友好、有个性的。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

同时，我们要求用户基于自身体验对各原则的重要性进行了1-10级评价，其中1分代表非常不重要，10分代表非常重要，分数越高，重要性越高。

结果发现，现阶段，用户更看重理性原则，尤其是以目标为中心，准确，而自然、友好等感性原则暂居相对次要的位置。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

此外，我们也梳理了不同原则下的具体评估指标，这些指标代表在该原则下，用户在对话中具体的关注点。不同指标的重要性有所不同，详见下表。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

三、话术设计建议：原则如何指导话术设计？

接下来，我们一起看看上述这些原则如何指导具体的机器话术设计。

1. 以目标为中心原则

以目标为中心是用户最为看重的原则。用户非常重视效率（闲聊场景除外），他们希望机器的回复与自己的需求高相关，可以快速达成心中所想。

同时，用户表示在语音交互中，需要更多“引导”，尤其需要了解机器当下和未来状态。语音看不见摸不着，我们无法像在图形用户界面（GUI）中那样——通过导航条判断所在的位置，看到按钮可以判断是否点击等。如果缺少必要的引导，用户在语音交互中很容易迷茫，产生各类负面情绪。

因此，话术设计时，必须遵循以目标为中心原则，做好引导，让用户可以通过声音“看到”通往需求的路径。基于此原则，设计话术时可考虑以下几条建议：

建议1：优先回应用户的核心意图

围绕用户最关心的问题优先给出适合的回应。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议2：清楚传达机器当前的情况

如果因为各种原因无法直接满足用户需求时，应及时告知，避免用户困惑。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议3：澄清目标，不轻易终结对话

对话过程中，引导用户不断澄清目标，不轻易做话题的终结者。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议4：告诉用户接下来怎么做

不能清晰识别用户意图时，可主动询问用户有可能的意图，引导用户完成目标。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议5：提供相关替代方案

在无法直接满足用户时，可考虑提供相关度较高的替代方案，间接满足用户。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

2. 准确原则

用户认为表达准确是最基本的原则。表述不准确可能导致用户误解、无法判断机器所要传达的真正含义，使对话脱离正轨甚至无法进行。

基于准确原则，设计话术时可考虑以下建议：

建议1：避免表述有歧义

表述的含义要确定，不要说让用户“这样理解可以，那样理解也可以”的话。口语中最常见的歧义是同音歧义，即语音相同带来的歧义。以下两类同音歧义，话术设计时需要注意：

同音异形词歧义，如播放菜谱时提到“切ji放糖”，是“记”还是“忌”？
同音同形词歧义，如闲聊时提到“我最喜欢杜鹃啦”，是杜鹃这种花还是杜鹃这种鸟？

建议2：避免表述过于笼统模糊

表述要尽可能具体明确，避免过于笼统模糊。

我们来看下面一个案例，研究中，面对第一种话术，大多数用户表示“有点懵”，“是给音箱起名字，还是告诉音箱自己的名字？不知道该怎么回答”。而第二种话术则明确指出是“音箱对自己的称呼”。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

3. 简洁原则

在研究中，用户多次提到“不喜欢这个话术，太啰嗦了，能不能拣重点说”，“说太多了，压根没记住啊”，这些抱怨体现了用户对简洁的重视。

用户如此重视简洁是必然的。语音是一维线性的，只能一个字一个字的听完，无法快进，不能后退。哪怕信息不相关、无意义，用户都无法略过。这些冗余信息既浪费用户时间，也会增加用户的烦躁情绪。

更重要的是，大脑能处理的语音信息量有限，一旦超出会给人的工作记忆造成负担。长期以来，神奇数字7±2被认为是工作记忆的容量，但近期这一标准遭到质疑，普遍认为这一估计偏高。有研究者（Mastin，2010）认为这一数字可能是4±1。

基于此原则，设计话术时可考虑以下几条建议：

建议1：表述简单明了，不啰嗦

传递必要信息前提下，保持话术简洁。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议2：避免信息量过大，一次提供的选项不超过三个

单次交互提供的信息量不要过大，以免给用户造成认知和记忆负担。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

4. 自然原则

在研究中，听到某些话术，用户纷纷表示“这太生硬了，一点都不自然”，“这明显就是机器说的话，人怎么可能这么说呢”。用户希望话术可以贴近生活，尽可能自然。

这是非常好理解的。在人机语音交互中，人类最想使用的肯定是自然语言。口头语言是人类最擅长，使用门槛最低的自然语言，人类使用口头语言进行交流的历史已跨越十万年。与之相比，书面语言的发展不过五千年，计算机语言更是刚刚萌芽。因此，设计话术时，可参考汉语口头语言的特点，营造“自然感”。

基于此原则，设计话术时可考虑以下几条建议：

建议1：措辞口语化

日常对话中，我们会使用丰富多彩的重叠词（如看看、马上马上）、语气词（如吧、呢、哈）、感叹词（如哎！天！）、惟妙惟肖的象声词（如噗通、呼啦）、填补词（如嗯，呃），也会妙用各种副语言，如“哼哼”之类的鼻化音、笑声、颤音等等。话术设计中，可以参考这些口语化的表达。

尤其注意，话术设计时要尽可能避免专业术语、技术名词、晦涩用语等。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议2：句式自然，可使用话语标记

口语中句子多短小，结构简单。语言学研究发现，口语中长句占比仅19%，短句占比达到81%（超过7个实词的单句为长句，反之为短句。实词指具有实际含义且能单独充当句子成分的词）。话术设计时可考虑这一特点，尽可能使用短句。

另外，口语对话中会使用“话语标记语”做句子之间的过渡，话术设计时也可参考。常见的话语标记有：“首先…然后…最后”之类的序列标记；“开始”、“以后”之类的时间标记；“这”、“那”之类的指示词等。

建议3：增加措辞多样性

使用同义词为固定的答案增加多样性，比如表示确认的时候，可以随机呈现“ok”、“收到”、“好的”、“没问题”等等。这些同义词可以增加对话活力，让对话更自然。

5. 友好原则

研究中，我们发现，用户很反感机器以“高人一等”的姿态说话，尤其反感被机器指责。高人一等的话语和指责会让用户觉得“不忿”、“挫败”，甚至会丧失对机器的“信任”。

人是社会性动物。日常交往中，我们更喜欢对我们友好、喜欢我们的人，而倾向远离那些不够友善的人。判断对方是否友善，语音是最直观的线索。在人机语音交互中，我们同样能根据机器的应答判断其是否友好。因此，话术设计时要重视友好。

基于此原则，话术设计时可考虑以下几条建议：

建议1：错误归为机器，而非人

错误发生时，从机器的角度说明出错原因。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议2：避免要求用户按照特定的方式表达

尊重用户的说话方式，不要试图教给用户怎么说话

“会说话的人，一开口就赢了”——语音交互中的机器话术研究建议3：体现“关注用户需求”的服务态度

即使不能满足用户需求，也要体现出努力帮助用户的态度。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

6. 有个性原则

必须强调，话术体现的个性必须与产品人设保持一致，比如冷静成熟的产品人设就不太适合嗲嗲说话撒娇卖萌的话术。

本次我们发现，用户对“幽默”的话术接受度较高。在人际交往中，幽默能提升他人对自己的印象，让人感觉亲密并能帮助人们缓解压力。语用学研究也发现，只要适合特定场景，幽默话语的交际效果是最佳的。

不过，幽默具有明显的文化和群体差异，“甲之蜜糖，乙之砒霜”，设计话术时需特别注意。

建议1：遇到难题时，可考虑使用幽默话术回应

遇到无法实现的功能时，通过幽默话术回应用户，调节氛围。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

建议2：娱乐话题的表述可以更加活泼有趣

讨论一些娱乐话题或闲聊时，话术可以考虑增添更多趣味元素。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

四、小结

本文从用户视角出发，阐述了机器话术设计的6大普适性原则，以及如何基于这些原则设计话术。我们定义的设计原则及提供的设计建议如下：

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

雷锋网注：图片来自百度研究院

话术研究具有挑战性。话术与对话场景、对象，产品本身的人设、特性，系统语音识别、语义理解能力等均具有密切关系。但这不妨碍我们通过参与式的用户研究探索话术设计的普适性原则。所谓“深根固柢”，这些原则是机器话术设计时的基础与根基，有助于我们打造更自然和极致的语音对话体验。

我们也以此研究为契机，开始探索在AI时代，在机器话术这个领域，如何将技术和艺术、人性结合，希望能带来让用户内心真正喜欢的体验。

雷锋网认为机器话术作为一个充满艺术特色又与人性密不可分的主题，还有着许多未知且充满魅力的方面值得探索。

“会说话的人，一开口就赢了”——语音交互中的机器话术研究

一、话术设计研究：我们如何做的？

1. 案头研究

2. 对话场景设计

3. 具体话术设计

4. 话术实验

5. 设计原则提炼与验证

二、话术设计原则：用户关注什么？哪个更重要？

三、话术设计建议：原则如何指导话术设计？

1. 以目标为中心原则

建议1：优先回应用户的核心意图

建议2：清楚传达机器当前的情况

建议3：澄清目标，不轻易终结对话

建议4：告诉用户接下来怎么做

建议5：提供相关替代方案

2. 准确原则

建议1： 避免表述有歧义

3. 简洁原则

建议1：表述简单明了，不啰嗦

建议2：避免信息量过大，一次提供的选项不超过三个

4. 自然原则

基于此原则，设计话术时可考虑以下几条建议：

建议1：措辞口语化

建议2：句式自然，可使用话语标记

建议3：增加措辞多样性

5. 友好原则

建议1：错误归为机器，而非人

建议2：避免要求用户按照特定的方式表达

6. 有个性原则

建议1：遇到难题时，可考虑使用幽默话术回应

建议2：娱乐话题的表述可以更加活泼有趣

四、小结

建议1：避免表述有歧义