—— 你这是什么意思啊?
—— 没什么,意思意思。
一名新入职场的翻译员,担心越来越厉害的机器翻译抢了自己饭碗,于是在知乎上发问,“这个行业还有没有前途?”老司机们纷纷上前安慰,其中一位说,年轻人你兔样兔森破,让机器翻译一下上面这个对话,看能不能搞定,再来担心吧。
不知道“年轻人”有没有去试。雷锋网去试了试,发现行业公认最厉害的 Google 翻译和微软翻译(Microsoft Translator),确实都搞不定这个极具中国特色的语音对话。但两者的表现,又是不一样的。
同一段语音,这是 Google 的结果:
这是微软的结果:
具体来说。使用语音翻译,Google 会完整保留所有字;微软则会把第一句中的语气词“啊”字省略掉,把第二句中的“意思”省略掉一个(可判定为误伤)。为什么?
微软告诉雷锋网,之所以省略掉“啊”以及误伤一个“意思”,是因为他们在语音翻译中运用了一项独门绝技——TrueText(智能文本校正)。在一份官方文档中,微软这么解释 TureText 的作用:
这个过程包括去除造成不流利的字词(例如“啊”“嗯”以及重复措辞)、将文本分解成句子、添加标点符号和大小写识别。
这就是微软的语音翻译技术,为“口头语”所做的优化之一。Olivier Fontana 是微软研究院 Microsoft Translator 产品战略总监,在八月中旬的一次沟通中,他告诉雷锋网,我们平时说话,说出来的和写下来的表达方式是不一样的(口头语和书面语),TrueText 可以把语音识别出的文字,变成机器更容易理解的、有意义的内容,这一技术微软在全球范围内是独一无二的。
因为工作关系,本文作者日常要处理不少采访速记,尽管文本经过速录员的“人工优化”——去掉了不少语气词,但通篇文档中找到几个连续的完整句子,几乎是不可能的。除了准备好的演讲稿,很少有人平时说话的时候可以用连贯的语句,表达自己的意思。人在说话时,本来就是磕磕绊绊的,是“话中有话”的,是“不言而喻”的,机器理解人的本意,再转换成另一种语言,更是难上加难。TrueText 技术相当于用机器做了口语文本内容的整理。
很多人认为,语音翻译就是先把语音识别为文本,再把文本翻译为另一种语言的过程。其实不是这样。
Olivier Fontana 告诉雷锋网,微软尝试过这种简单拼接的方式,但翻译质量无法令人满意。最终微软的方案是,在语音识别阶段就为口语的识别做了特殊的输入优化,识别之后的文本经过 TrueText 技术的处理,再进入文本翻译阶段,文本翻译的输出结果也要为口语做优化,最终通过成熟的 TTS 技术让机器“读出来”翻译结果。
Olivier Fontana 说,在“实时对话场景”的翻译模型研发过程中,微软面临着三项关键的挑战:
收集口语语料。需要大量时间和金钱,来收集口语化的语料数据。
训练这些语料。这一项的运算成本非常高,需要大量的运算能力和硬件加速系统。
开发口语模型。每一种语言的口语表达方式和发音方法都不一样,同一种语言不同年级的人声音、俚语、语速和表达方式也不一样,很难用同一种模型去实现。
微软介绍,针对口语的翻译优化,尤其是针对聊天对话内容的优化,以及 TrueText 技术,微软在业界都是唯一的。
Olivier Fontana 表示,传统机器翻译都是基于比较正式的文本翻译,微软则加入了大量基于口语对话的语料库。他透露,微软甚至还花钱请了很多人到 Skype Translator 上聊天,谈他们的假期,日常生活,作为口语数据进行搜集。
Skype Translator 的实时语音翻译技术,一经问世,就引发了行业关注。这是一项让两个不同语言的人,可以实时通过自己的母语进行语音进行沟通的“黑科技”(见视频)。微软最早在 2012 年天津的一次学术活动上展示了这项技术。2014年12月,这项技术在 Skype Translator 应用上实现商用,之后陆续运用到桌面版 Skype Translator 和 Microsoft Translator 手机App中。今年上半年,这项技术迎来新的里程碑,微软将 API 开放给所有人,方便开发者将其集成到自己的应用中。
微软翻译针对语音“对话”进行的种种优化,很容易让人联想到,这家公司在年初 Build 大会上公布的战略“对话即平台”。他们还透露,在今年年底前,将为Office 365企业用户提供 Skype Meeting Broadcast 服务。通过该服务,可以自动为网络会议添加字幕,并将会议实时地翻译成不同语言展现出来。
注:本文曾用标题《微软翻译:别人还在为“书面语”奋斗,我们已经为“口头语”优化》