搜狗同传3.0：引入视觉能力+知识图谱，构建语境引擎

同传知识图谱 AI

2019/12/25 16:12

2019年，距李世石与AlphGO的“人机大战”已有三年，似乎没有人再怀疑，在“下棋”这件事儿上，人类确实已经输给了AI，人类与AI下一个较量会在哪里？

同传（同声传译）将很可能是下一个面临挑战的应用场景。

12月21日，基于语境引擎的搜狗同传3.0以多模态和自主学习为核心，加入视觉和思维能力，这是AI同传在加入诸如视觉AI、知识图谱等能力后的再度进化。

从人到机器：困于行业知识的AI同传，破局定制化难题

多模态同传，顾名思义，聚合多种交互形式实现同传的能力。

据雷锋网了解，搜狗在多模态领域的探索和应用早已有之，包括此前在AI合成主播上的应用，结合了语音、唇语、表情动作等交互形式，最终形成的AI合成主播参与了2019年全国的两会报道，甚至还走出国门，与阿布扎比媒体集团达成合作，将推出全球首个阿拉伯语AI合成主播。

此次搜狗在12月发布的搜狗同传3.0同样在基于基本的语音交互能力时，加入了文字和图像两类交互能力，进一步将嘉宾ppt内演讲相关内容，语音识别准确率提升了21.7%，翻译准确率提升了40.3%。

为什么经过两代迭代后，搜狗会在同传系统中引入图像识别的能力？

这要从搜狗此前两代同传系统，以及此前对数千场会议的同传支持的痛苦经历上谈起。

2016年，搜狗在「第三届乌镇互联网大会」上发布了行业第一个商用AI同传产品——搜狗同传1.0。这是搜狗同传的第一代产品，同时也是搜狗进入同传这一领域的第一次商业尝试。

“1.0阶段我们提供的是通用的同传能力，在实际应用过程中遇到的最大的问题是：每一位讲者在演讲时的背景信息和语义信息不一样，可能今天我们需要支持医疗会议，明天需要支持航空会议，我们很难获取这类专业会议的‘语义词’。”

回看最初的搜狗同传1.0时，搜狗AI交互技术部总经理陈伟认为当时实际应用中遇到最大的问题是难以获取各专业领域的“语义词”，这也影响了最初这一产品的识别及翻译的准确度。

如何获取这些专业的“语义词”，以此来训练专用的模型，改进通用的1.0版本？

这是搜狗同传研发团队当时在进行版本迭代时主要考虑的问题，也是最终搜狗同传2.0试图去解决的问题。

这也就有了2018年发布的搜狗同传2.0的几点重要能力的升级：通过行业深度定制和专属模型训练（例如事先上传演讲稿或给出重点词汇进行训练），输出行业方案。

“在迭代到2.0版本后，我们一般会投很多人针对演讲者要讲的内容做优化，但是我们往往很难拿到演讲稿，所以只能在网上找与这个人相关的背景知识，以前讲过的内容，基于此做模型优化。”

尽管2.0版本考虑到了专业化内容的优化，但是在具体应用过程中，由于难以会前获取实际演讲者的演讲内容，并未能用这些专业内容进行定制模型优化。

其实在这样的升级迭代过程中，搜狗同传的通用能力从2016年的搜狗同传1.0到2018年搜狗同传2.0已经有了明显的提升，“但是就通用能力和个性化能力上，在嘉宾演讲的PPT内容的识别和翻译效果仍有较大提升空间，这是一定存在的。”

也因此，搜狗仍在继续优化个性化能力，也就是搜狗同传的定制化能力，“我们希望让机器自己定制一个好的语境。”

这样的能力最终在搜狗同传3.0上得以实现。

搜狗同传3.0：引入视觉能力+知识图谱，构建语境引擎

搜狗同传3.0：引入视觉能力、知识图谱，构建语境引擎

据陈伟介绍，搜狗同传3.0相对于上一代产品主要有三方面能力的提升：

第一，从感知层面来看，获取的信息从此前单模态信息到现在，引入视觉能力，得以获取多模态信息；
第二，从认知层面来看，通过OCR识别或视觉能力获取演讲者PPT内容，在语境引擎的帮助下，提取出这些专业知识的核心，通过知识图谱的方式，对内容进行进一步扩展，形成整个演讲者相关语境信息，并与演讲内容进行关联；
第三，我们拿到个性化信息后，进行实时语音识别、机器翻译，并生成个性化、实时定制引擎。
在整个搜狗同传3.0系统工作过程中，特别加入视觉能力，并引入了语境引擎，这也成为解决前文提到的专用性、个性化同传需求的关键。

“语境引擎能够真正做到对PPT内容的理解和推理，”陈伟点出搜狗同传3.0的核心能力所在。

具体搜狗同传3.0技术框图如下图所示：

搜狗同传3.0：引入视觉能力+知识图谱，构建语境引擎

从搜狗同传3.0技术框图中可以看到，语境引擎主要由「PPT文本理解」和「搜狗知识图谱」两部分组成。

语境引擎整个工作过程具体可以理解为：

在会议现场，通过OCR（例如播放PPT的笔记本），将演讲嘉宾PPT全部内容被转换成文字信息，并就此文字信息抽取与作者领域相关的个性化内容和知识；
基于这些知识，结合搜狗此前基于搜狗百科构建的知识图谱再扩充一些知识，汇同语音识别的内容为语料训练模型，形成搜狗同传3.0的识别翻译模型。

这其中，搜狗还在同传系统中加入了识别翻译协同模块，对翻译模型的输入文本进行优化，这一模块的作用在两次迭代中也从最初、最基本的标点断句，逐渐升级为拥有标点断句、文本顺滑、语义单元三大能力。

在这个过程中，搜狗的机器翻译模块也从1.0系统的RNN模型、2.0系统的Transformer模型，升级为3.0多模态翻译系统，3.0系统是在Transformer模型基础上，将搜狗百科知识图谱和翻译历史融合到翻译系统中，并实现了流式解码。

据搜狗官方公布信息来看，通过构建语境引擎升级后的搜狗同传3.0系统的实测数据如下图所示：

搜狗同传3.0：引入视觉能力+知识图谱，构建语境引擎

这样现场识别PPT内容，结合搜狗百度百科知识图谱，构建语境引擎，是否对算力和硬件有特殊要求呢？

陈伟解释称，现场做PPT内容识别的时候可以直接通过截屏（本机播放PPT）或笔记本电脑上的摄像头来完成，语音训练用英伟达常规的P40或V100进行训练，训练推理方面没有额外增加负担。

AI同传尚难取代人类同传，多模态成趋势

引入视觉能力、加入知识图谱后的搜狗同传3.0，能够完全取代人类同传吗？

据搜狗官方在发布会上公布的信息显示：

在实际测评中，搜狗同传3.0的评测得分为3.82分，人工同传的评测得分为4.08分。

搜狗同传3.0：引入视觉能力+知识图谱，构建语境引擎

显然，就目前而言，AI同传还无法完全取代人类同传。

就此，陈伟也指出，

机器的感知能力越来越强，因为机器在持续学习（每天在搜狗输入法上的语音识别总次数在8亿次以上）。但是机器与人类最大的差距在翻译上。就翻译的“信、达、雅”来看，机器差不多可以实现“信”，在部分场景能够实现“达”，但是人可以做到“雅”。
就翻译而言，AI同传面临着直译的问题，例如，讲一个笑话，能不能get到讲者的意思并把它翻译出来，讲到一个谚语是否能够理解，人与机器最大的差距还是在语言理解能力上。所以搜狗一直在做语言AI，要把我们的重心回归到语言这件事儿本身上来。

回归到语言本身时，各类传感器越来越多，设备能够收集到的数据及数据种类越来越多，亦即越来越多的多模态数据逐渐可以获得，当有了多模态数据后，相关模型和算法也逐渐开始受到业界所关注。

“但是大家一开始还是把多模态这件事想得太简单了，多模态的实现过程不是简单把模态融合在一起，从我们这些年在上面的认知来看，是一个蛮复杂的过程。”

当提到搜狗在多模态语音方面的技术发展，陈伟表示：

“我们是第一个在技术上主张多模态的公司，此次搜狗同传3.0也是从语音跨到了多模态，在这种多模态下将我们对于知识的理解、对语音的理解放进去，我们的同传就也开始具备一定的认知能力。”

“我们公司的终极目标是走向做VPA，即一个软件形态的AI助理，可能以硬件为载体，也可能放在搜狗输入法、搜狗的搜索引擎上。搜狗VPA的形态，是一个任务导向，中间会看到以对话为主的形象。同传这个场景下，我认为搜狗同传就是一种形态的VPA，是具备了同传能力的VPA，它可以与人做同传交互。”雷锋网雷锋网