资讯 人工智能学术

和清华大学自然语言处理与社会人文计算实验室一起读机器翻译论文

作者:杨晓凡
2019/02/08 18:16

雷锋网 AI 科技评论按:在生产和经济高度全球化的今天,机器翻译(Machine Translation)是人类面对外语时最渴望拥有的工具,也是神经网络带来最大变革的人工智能问题之一。

从最早的基于规则的机器翻译,到基于概率的机器翻译,再到现在的基于神经网络的机器翻译,机器学习和语言学的研究人员们一起经历了几十年的历程。如今的机器翻译系统虽然还算不上尽善尽美,但以谷歌翻译、百度翻译为代表的,使用神经机器翻译技术的大规模开放使用的翻译系统,已经可以时不时地给出一些流畅、明了的双语互译结果了。

当然了,在神经网络/深度学习的冲击之下,我们也不免看到这样的调侃:“团队里每开除一个语言学家,翻译模型的准确率就可以再提升一点。”在越来越大的语料库、越来越多的模型设计和训练技巧的帮助下,来自语言学领域的指导带来的提升远不如机器学习领域的新技术成果、甚至已有技术成果的好的实现带来的提升大。雷锋网 AI 科技评论的读者们相信也有这样的感觉。

机器翻译,尤其是神经机器翻译(neural machine translation,NMT)也是清华大学自然语言处理与社会人文计算实验室重点关注的研究课题之一。为了便于自己研究,也给这个课题的其他研究人员提供从那靠和指引,清华大学自然语言处理与社会人文计算实验室机器翻译小组在 GitHub 上维护着一份神经机器翻译论文清单,包含了这个领域内他们认为起到重要作用的研究论文。

列表中的神经机器翻译论文划分为了模型架构、注意力机制、开放词库、训练目标、解码、低语言资源翻译、先验知识集成、文档级别翻译、鲁棒性、可视化和可解释性、语言学解释、公平性和多样性、效率、语音翻译、多模态、集成和重新排序、预训练、领域适应、质量估计、以人为中心的神经机器翻译、单词翻译及双语专用语翻译、诗歌翻译等主题,内容十分全面细致。除此之外,他们也列出了 10 篇必读论文。

这 10 篇必读论文是:

论文列表具体内容请见:https://github.com/THUNLP-MT/MT-Reading-List

另外,在清华大学自然语言处理与社会人文计算实验室机器翻译小组的 GitHub 页面还可以看到他们的开源神经机器翻译工具包 THUMT (https://github.com/THUNLP-MT/THUMT  )。

祝各位阅读论文愉快。

雷锋网(公众号:雷锋网) AI 科技评论报道。

文章点评
相关文章