雷锋网按:智能语音技术经年之后的不断完善,尤其是随着语音识别准确率的不断提高,基于智能语音技术的智能硬件纷至沓来,除了智能音箱一再受众人追捧外,智能翻译机也悄然逆袭,并入这条快车道。
不同于智能音箱因没有明确的应用场景备受诟病,智能翻译机倒是有诸如商务会议、出国旅行等针对性较强的应用场景,由此带来的则是对深度学习算法更高的要求。
智能翻译机的技术基础说到底还是智能语音技术,这一点与智能音箱极为相似,其中,神经网络翻译系统尤为关键,各大厂商纷纷针对这一系统进行自研,诸如谷歌的GNMT、科大讯飞的INMT、搜狗的SNMT等。
用于机器翻译的神经网络系统最为经典的基础技术可以归为两类——RNN(循环神经网络)和CNN(卷积神经网络)。主要区别在于两类系统的执行顺序不同,采用RNN神经网络的机器翻译系统是顺序执行任务,在进行翻译工作时,要对整个句子从左到右或从右到左依次执行,精准度较高,但无法充分应用系统硬件GPU的并行运算能力;采用CNN神经网络的机器翻译系统则是并行执行任务,计算效率更高。
CNN卷积传输示意图
虽然采用CNN的系统的计算效率更高,但是在做机器翻译时采用CNN的神经网络系统一直不如采用RNN的神经网络系统,尤其是在翻译精准度上差强人意。因而,长久以来,诸多做翻译机的公司虽然对RNN和CNN都在跟进研究,但是各家产品中使用的翻译系统仍是基于RNN架构的较多。
2017年5月,Facebook的FAIR团队提出一种使用全新CNN架构的fairseq,官方给出的数据是比基于RNN架构的机器翻译系统的速度高出9倍,同时,准确性也是当时最好的。这在当时也一度被认为是机器翻译系统技术的一个转折点。据雷锋网了解,就在1个月后,谷歌在发表的《Attention is all you need》论文中提出了不使用CNN及RNN的transformer架构,官方表示采用该架构的机器翻译模型实际效果超越了当时所有公开的机器翻译模型。
在技术角逐的同时,也不乏有科技公司的产品跟进。例如搜狗于2017年7月上线了基于transformer的机器翻译系统模型,在解决了transformer机器翻译系统模型原生系统解码器解码速度慢的问题后,将速度提升了8倍,并可以运用到离线翻译功能。
另外,技术之间各有优势也是必然的,尤其是在还没有一个成熟的技术时,做产品和技术研发适度整合多种技术也是必由之路。例如搜狗在跟进transformer机器翻译模型的同时,仍然在用CNN做语音识别上的训练,搜狗语音交互技术中心研发总监陈伟在参加对外活动时曾提到:在做语音识别时,搜狗用50层CNN结构得到语音识别模型,基于此模型,训练离线语音识别模型。
翻译机的产品形态主要有三大类;翻译机、翻译手机和翻译耳机。
现在主流市场还是将翻译机做成智能硬件单品,例如科大讯飞的晓译、有道翻译蛋等,但是市面上较为高端的翻译机价格都在千元左右,科大讯飞的晓译2.0价格标定为2999元,这其实已接近市场上中高端手机的价格,因而,还是吸引了以智能翻译机为主导功能的智能手机的入局。2018年6月,国内糖果手机推出糖果S20,支持语音翻译、拍照翻译、104种语言、离线翻译,提供24小时在线人工翻译服务,将翻译机功能再度整合到手机中。
耳机类翻译机最初在国外较为流行,如谷歌的Pixel Buds翻译耳机、Waverley Lab的Pilot翻译耳机,通过蓝牙与手机中的翻译APP相连,硬件思路类似蓝牙耳机,这类产品更多地考虑到手机翻译机带来的便捷、礼仪、卫生的问题,解决了场景应用中的一些尴尬局面。
具体各类翻译机产品,雷锋网整理如下表:
智能翻译机产品五花八门,也很难说今后是否还会出现其他应用形态。不过就应用来看,由于要实现语音识别、语音合成、机器翻译等对系统功耗和性能要求较高的功能,同时还要考虑语种、口音、噪音干扰等复杂的应用场景,现在的智能翻译机还没有发展到能够作为一项功能整合到手机或其他成熟的硬件形式中。正如科大讯飞创始人胡郁谈及讯飞翻译机与谷歌Pixel(手机)相机图片翻译的不同时的解释:谷歌更多从技术落地来考虑,这需要更强的处理器支持,并且也会增加手机的耗电量。
精准度是翻译机的灵魂,也是对一个翻译机的好坏最根本的考量。此前,就各大厂商自报成绩单时,科大讯飞的晓译2.0发布时,官方给出的准确率是98%,搜狗官方公布最新的语音识别准确率是97%。
各大厂商官方公布的准确率确实很高,不过在实际应用中还需要考虑诸如口音、口语及环境噪声的问题。刚好小编手上有晓译2.0可供做翻译测试,两组测试结果如下:
英文原文:So really,both Linux and Git kind of arose almost as an unintended consequence of your desire not to have to work with many people.
识别/翻译结果:So really,both limits and get kind of rose almost as an unintended consequence of your desire not to have to work with many people.(因此,实际上两者的限制和得到种玫瑰几乎作为一个意外的后果,你的愿望不需要与太多的人一起工作。)
中文原文:gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。
识别/翻译结果:给她是一个面向开源及自由软件项目的托管平台,因为只是给他作为唯一的版本库格式进行托管,故名给他。(She is a hosting platform for open source and free software projects,because only for him as the only version of the library format for hosting,so named him.)
从结果来看,识别率还是很好的,只是在一些专业词汇上还无法准确识别;而翻译结果准确率够高,口语化略显不足。由此看来,官方给出的语音识别准确率不能完全用来衡量翻译机产品的翻译能力。
正是近年来出国旅行备受推崇,外加智能语音技术得到一定突破,使得翻译机的研发被提上日程。但是处于风口的翻译机在备受追捧的同时,自然也少不了搅局者。
从产品形态来看,有耳机,也有手机,有基于手机APP的应用,也有智能硬件单品。其中以智能硬件单品居多,其他产品形态更多则是一种尝试,如无意外,整个产业现在的重心还是要回到智能硬件单品这一形式潜心做功能升级和技术研发。
从翻译机的价格来看,跨度在百元到几千元之间,一些没有成型技术的团队加入智能语音系统的翻译机的价格甚至尚不及一支功能简单的录音笔,可想其产品架构中软硬件系统的性能会是怎样的情形,同时也使得其很难再拥有足够的资本继续做技术研发和产品迭代。
大家看到智能翻译机的时候经常会认为专业翻译人员很快会面临失业问题,其实如此说来为时尚早。现在的翻译机自身还存在诸多问题有待解决,虽然解决出国旅行时的点餐、问路已不是问题,但是面对诸如商务会晤、技术论坛等更为专业的应用场景,或是娱乐场所、赛事解说等更为复杂的周围环境及人文环境,智能翻译机的实际应用还是略显吃力。
不过就技术角度来讲,虽然诸多技术和产品纷纷涌入,而其实,这也才刚刚开始。
产品是技术最好的检验。语音技术正在经历着这样的检验,经过了智能音响的检验,这一轮是智能翻译机的检验。
智能翻译机居当下风口,技术雏形虽然已有,但是机器翻译系统的翻译速度和翻译准确度还需要在整个AI大环境下继续打磨,在翻译匹配度、翻译口语化能力、环境辨别能力,甚至具体产品形态上还需要继续经受市场用户的各类反馈和研发团队的不断改进。
至于当下市场中鱼龙混杂的入局者,市场自然会进行优胜劣汰,剩下的终将会是最适合你的产品。
相关文章: