雷锋网会于7月中旬在深圳举办全球人工智能与机器人峰会,届时我们会发布一个年度Top 25人工智能项目榜单,目前,我们正在四处拜访人工智能领域相关的业者。最近关于自然语言处理这一块,我们拜访了若干公司,商鹊网是其中一家。如果你也想挑战榜单中的公司,邮件联系:2020@leiphone.com。
一个令人苦恼的事实是,英文网页的数量不知道比中文网页多到哪里去,而公共知识库维基百科中,英文词条也远比中文词条丰富。如果是英文苦手,又想避开可能被广告占领的某度百科,就只能借助翻译工具了。
2014年底Skype翻译公布预览版,后来逐渐支持数十种语言的语音及文本实时互译;2006年Google推出在线翻译工具,目前已支持103种语言,覆盖99%的网民。不过使用过就会发现,它们还只能算差强人意,译文不准确,也无法用于内容出版。以Google为例,它经常会词不达意,甚至违背语法规则。这是因为Google机器翻译用的是基于统计分析的算法,需要丰富的语料库才能有较好的效果,而这显然与人类对语言的理解不同。
那机器翻译就不堪重用吗?也不是。在新闻领域,机器人已经能自动生成稿件,数秒内就能将重要资讯传达给用户,不过还仅限财经等句式规范的内容。机器翻译也是如此,商鹊网就认为,机器翻译虽然远未达到成熟,但在科技专利等垂直领域可以取得突破。
skype翻译
在翻译上,商鹊网主要为垂直领域(专利、跨境电商和境外投资等)提供机器翻译引擎产品,应用在译后编辑工作模式中;并以译后编辑(通过少量人工修改以完善机器的翻译)平台提供人机交互翻译服务。
此外,商鹊网还有在线术语管理平台“语帆术语宝”和开放词典网站“一本词典”等产品,并为客户提供技术服务,如语料对齐工具。
商鹊网告诉雷锋网,其核心技术在以下几个方面:
完整的机器翻译技术,覆盖了自然语言处理技术的各个层面(词法、句法、语义),主要组成部分(分词、术语提取、句法分析、语言模型、语义分析等)和主要技术方案(基于统计、基于实例、深度神经网络等)
人机交互翻译技术,目前应用的是适合行业用户水平的译后编辑技术;
术语提取技术和术语管理系统,这是实现知识图谱和智能知识管理的基础;
完整的数据采集、加工和应用工具、流程及系统。
虽然工厂、写作及翻译上的自动化水平越来越高,但机器翻译还远未达到成熟水平(用过Google和有道翻译的应该有同感)。让机器学会翻译不是件容易的事,语言有很大的复杂性,一些用词与表达往往有多种含义,再加上语序的变化,想想也是为难机器人,毕竟人类之间也经常发生误解。
相比之下人机交互翻译更成熟也更实用。而且通过反馈的方式,可以提高系统的智能化水平。这也是商鹊网使用人机交互翻译,并专注特定领域的原因。
这种方式也让人想到Facebook的人工智能服务“M”。M能提供订餐这样的连续对话服务,这是因为它有被称为“训练员”的人工辅助,遇到无法处理的信息时会由教练处理。这样人工智能可以辅助人工后台,反过来人工后台会训练人工智能。
商鹊网表示,在对自然语言处理最为重要的语料数据上也有持续的积累。在专利等领域,它们已经有了大规模双语语料和双语术语库。2013年启动的人工译后编辑项目,也为其积累了大量人工反馈和行为数据。对比Google在专利领域的翻译,商鹊网认为,虽然Google在句式表达上占优,但自己在术语准确度上有优势,因为每年有超过2亿字的人机专利翻译业务,这对提高翻译引擎的准确度十分重要。
无论是图像识别还是自然语言处理,数据集对人工智能至关重要,反馈越多,系统迭代也越快,准确性也越高。
对于当红的深度学习技术,商鹊网也在将较为成熟的技术如WordEmbedding等应用于技术研发中,并在克服翻译效果、时空性能和用户体验之间的平衡等问题,在垂直领域取得突破。或许再过不久,机器就不再需要人类协助翻译了吧。