雷锋网按:本文是清华大学教授、中国中文信息学会副理事长孙茂松在MIFS 2016上的演讲实录,雷锋网编辑整理。此次在北京举办的MIFS 2016是由中国人工智能学会、中国工程院战略咨询中心主办,今日头条、IEEE《计算科学评论》协办的2016机器智能前沿论坛,这次论坛同时也是2016 BYTE CUP国际机器学习竞赛的颁奖仪式。
在MIFS 2016上,孙教授的演讲回顾了机器翻译波折的发展历程,同时分享了在神经翻译系统之后他们在提升机器翻译上的实践。
“算法+大数据+计算力”
这是我的题目,《当巧妇遇到“大米”——机器翻译启示录》。大家一看就知道来自中国的一句成语,叫巧妇难为无米之炊。巧妇指好的算法,大米是大数据的意思,好的算法遇上了大数据,当然还得有一个灶台,灶台就是强大的计算能力。这三件事放到一起,对于机器翻译就会产生很多有趣的事情。
整个的报告以机器翻译为主线展开,大概分四部分:
第一叫做机器翻译的波澜史,几十年的发展一波三折,非常有意思;
第二是机器翻译现在主流的技术神经机器翻译,还是可以改进的。我可以给大家看一些例子,并不是谷歌就做到头了,还有很多的空间。
第三就是机器翻译在技术实际上是通用的,其实它是个一般性的原理,可以放到很多的领域,所以我会讲应用拓展,用计算机自动创作古诗为例。
后面是几句结束的话。
谷歌前几个月发布了新的机器翻译系统,这个系统实际上是完全基于深度神经网络的一个系统。如果说翻译的最高境界是Perfect,人也做不到完美,谷歌翻译在西班牙语到英语、法语到英语以及英语到西班牙语的翻译上和人做得差不多。但中文到英文和英文到中文的翻译跟人比差别比较大。实际上中文是世界上最难处理的语言之一,所以机器翻译肯定不好做。但是不管怎么样这个结果非常震撼。
回顾一下机器翻译的历史,这个历史很有趣。这个研究应该不是凡夫俗子发起的,实际上是有大智慧的人开始做的一个事情。机器翻译之父叫Warren Weaver,他在49年和信息论之父香农合著写过一本书,47年3月4日他给控制论之父Norbert写了一封信,在里面提出了机器翻译的可能性。他说这个事儿,如果咱们翻译叫信达雅三个要求,达雅做不到,信还是可能的。
Warren Weaver在49年写了一个《翻译》备忘录,不长,但是提出了系统翻译的思想,里面有四条是关键的,我简称叫W.W.建议。
第一条谈到了意义和上下文,比如说语言中有歧义,歧义要在一个窗口里解决,就是上下文;
第二个说到语言与逻辑,就离不开句法语义分析,得到了语义数分析数才能抽到逻辑,这点强调了语言分析对机器翻译的重要性;
第三个从信息论和密码学的角度提出要研究语言的统计语义性质,这个是从香农的信息论角度出发;
第四条提出了普遍语言的问题,也就是语言之间有通用性。
当时他好像漫不经心写了一个备忘录,基本上机器翻译后来到我们目前这几十年的发展,都是按他的框架做的,这是非常了不起的。当时从1947年到56年,我把接下来的时间叫大潮初起,他说这个事儿以后全世界都在做,当时都是世界说最好的单位在做,比如IBM、麻省理工学院。
四条备忘中:一和三基本上是统计,我们后来称为经验主义;二和四是基于规则,叫理性主义。
最初大家的研究都沿着规则的系统往下走,因为你做语言处理总要循着人类的语言处理分析做词法分析、语义分析。很快,到了1954年、55年就有这种实验,主要在美国和前苏联,实际上是和冷战有关系,大量的跟军事相关的跟情报需要被翻译。但很快地大概到1957年到66年这个阶段,就要从第一次波峰跌到了波谷,当时机器翻译其实做得还是很好的,像哈佛、伯克利都在投入,包括中国做机器翻译很早,58、59年国内就做出了一些俄中的机器翻译系统。
系统出来以后大家就可以看看结果,审视结果以后觉得没有那么乐观。最著名的就是60年以色列的著名哲学家、数学家和语言学家Bar-Hillel发表了一篇文章,他最初做机器翻译是很积极的,包括全世界第一次机器翻译国际会议也是他组织的。但他后来实际上下了一个判断,就是机器翻译不行,做不了。
他举一个很简单的例子:Little john was looking for his toy box. Finally he found it. The box was in the pen(盒子在围栏内)。
因为pen有两个意思,一个是笔,一个是围栏,到底是钢笔放在盒子里,还是盒子放在围栏里。这里面很复杂,你需要看更远的上下文,需要知识才能解决,所以他的观点是比较悲观的。
另外当时还有一个故事,也很有趣,也是一个测试,英文输入:
The spiit is willing,but the flesh is weak.
精神是愿意的,但肉体确实不愿意的。
要把这个翻译出来,但是经过机器翻译成俄文,再把它翻译回英语,得到了令人啼笑皆非的结果,
伏特加酒是好的,但肉却腐烂了。
这个例子虽然发表了,但也有人质疑它的真实性。但确实能说明那个时候机器翻译的水平。
1964年,美国政府成立了一个机构ALPAC委员会,由权威人士组成,对当时美国机器翻译情况进行了评价。这个报告非常有名,也有人称为机器翻译的黑皮书,基本宣布机器翻译是不可行的,结论是全自动机器翻译基本否定,建议做机器辅助翻译,二是机器翻译遇到了难以克服的语义屏障问题,应该加强对计算机语言学的研究。
下面的阶段是1967年到89年,波澜不惊水长流,机器翻译的研究中心从美国转移到了加拿大和欧洲。
在这些研究中,针对W.W. 第4条原则加强了,因为欧洲语言有很多种,通用语言就变得至关重要。还是有一些商用系统出现,特别是用在国防,但不是面向公众。这个期间对句法语义分析研究大量出现,实际上是为完美的实现基于理性主义的想法创造了非常好的基础。
下面是1990年到现在,实际上形成了一个新的波峰,是通过两个冲击波上来的。90年对于计算是一个有划时代的意义,在赫尔辛基的第13届国际计算语言学大会提出处理大规模真实文本的战略任务,所以大数据的思想做自然语言处理,我认为是这差不多第一提出的,在整个科学领域它提的是最早的,整个研究是基于大规模真实语料,这块别的领域提的很少,我认为自然语言处理是最早用的,因为那个时候大量的真实语料开始有了,包括双语语料成规模地出现,所以第一个冲击波叫统计机器翻译模型,也就是最著名的IBM模型1-5。以前的翻译服务是面向特定用户的,这个是面向广大用户的。
当时很有名的一个学者叫Och,有一句话很有名,说只要给我充分的并行语言数据,对于任何两种语言,我就可以在几小时之内给你构造一个机器翻译系统。我靠统计翻译方法就可以作出这个事情,这就彻底摒弃了以前沿着理性主义道路全面改成经验主义,这里面基本语言学家没有什么机会,只要你给我双语料就可以作出系统,谷歌几十个语言都是机器翻译,都是很容易做出来的,所以我叫理性终结主义。
但很快,大概2014年左右推出了神经机器翻译,就把刚才的终结者再度终结了。像谷歌、百度现在已经用神经统计机器翻译系统替代纯粹的统计翻译系统,所以你去看其实发展到这就是好的神经网络算法、有大数据、还有GPU的积累。所以这是一个发展的历程。
神经机器翻译系统还是有很多的问题,我们刚才讲的
精神是愿意的,但肉体是虚弱的。
我拿谷歌翻译成中文这是翻译结果:
精神是愿意的,但肉体是软弱的。
翻译成俄文再翻译回来基本也是原话,翻译成苗语再翻译回来,一来一去看质量确实不错。但它可能还有别的问题。
比如说in the box那个问题还是不行的,现有模型就是双语语料,肯定做不对,你随便测试一些东西,也不用太难为它,比如我说:”阎肃是个好同志,阎肃是一个作家。“它就完了,你再看翻译泰戈尔的《飞鸟集》,还是有问题的,是不完美的,有很多需要改进的。
我简单说一下清华大学的工作,我们科技组有一个刘老师,机器翻译做了很多的研究,比如说我们可以把最小风险的训练,不是用最大MSE,把这个东西嵌入到函数里,最后这个结果就非常好。你比如说像BLEU值是0.3338,这是最小的翻译值,我们可以做到0.4091。
这是翻译的例子:比如美国代表团包括来自斯坦福大学的一位中国专家,两名参院外交政策助理以及一位负责与平壤当局打交道的前国务院官员。这个翻译结构挺难的,靠统计机器翻译是做不好,你看效果就很差,这是我们SMT的效果。你用SMT传统有一些毛病,我们可以避免这个问题。
这个是我们对比了我们的系统和谷歌、百度等等的翻译效果。
再往下,其实我们还有一个改进就是中到英、英到中尽量一致,有一些策略,一来一去应该尽量一致,现在的方法是你孤立的看不一致,你再去看它的对齐,就会对的比较好,对的好以后效果也会好,你看中到英,独立训练是BLEU值23.63,联合训练就是26.42,效果比较好。
还有一个改进。双语语料的获取比较难,单语语料比较容易得到,如果用中文的单语语料和英文的单语语料放到这个模型里训练效果也会提高。比如如果不用单语语料值大概31.74、15.14,如果使用了任何一种单语语料,效果从31.74就可以到36.45,很显著的提升。
谷歌的神经翻译系统不是把事儿做完了,里面你的任务还可以提出很多的创新性的想法,提高系统性能,对研究还是大有用武之地的。
机器翻译是通用模型,我拿它做古诗创作,这个工作是和我的两个本科生同学合作完成的。这种通用方法对我们很多行业都是一个机会,现在的人工智能气候已经形成,基本的方法就摆在这了。比如LSTM模型。现在到了收获季节,看谁去摘桃子,找对问题,把桃子赶快摘下来。从研究角度第一个做这个事情是好的研究,第二个做的就变成作业了,所以一定要快。
古诗实际上它的复杂度不比下围棋低,而且它是从人文角度,我不知道在座各位多少还能作古诗,80%应该做不过我这个系统。用的是LSTM,但是我们有改进,不是在上面跑就可以作出这个效果,我给大家看结果,这个模型可以比较好的捕捉到词之间的相似性,句子之间的相似性,有些词创作非常有意思,你送给系统上句叫:江上西风一棹归。下句就自动生成:夕阳不见客舟归(江上的风浪不小,船到下面看不到夕阳了)。感觉意境还是不错的,比如:又听西风堕叶声,下面是计算机产生的:万事尽随天籁起。这两句诗你查古人是没有的,是计算机创作出来的。
对仗性,第一个叫星垂平野扩,月落远林疏。对的还是挺好的,比如给一个主题词,随便说给秋叶,下面系统创作出来的,白蘋江上惊秋雁,我们把所有的古诗送进去训练,这个掌声应该给两位同学。我们也做过评测,和人比PG是人,还是要差一点,古诗多了,上百万首,其实分别不算太远,但是比古人做的还是有差异的。可以做藏头诗,因为撒贝宁的名字有点怪,你给我弄个撒贝宁酷,计算机做的撒手离亭送别情,贝叶无梦到孤城,宁知梅岭遥相望,酷似清风入夜生,还挺有意境的。其实你可以随便迁入,计算机做这个事情容易。
还有一个是自动做集句诗,是古代考察这个人书读得够不够的一个本领,就是你做一首诗都是古人做的,听起来要意境,这是一个很经典的叫枫叶芦花并客舟,烟波江上使人愁,劝君更进一杯酒,昨日少年今白头,这是我们做的五绝,江南杨柳春,二月芳草新,千里一回首,青青向故人,这也是拼的,都是古人的诗。
我们还在摘桃子,但是也在改进,但是你会看到有了这么通用的工具,我们花半年的努力,搞一两个比较行的学生就有可能把桃子摘下来,我呼吁大家赶紧摘桃子。
你去看机器翻译整个历史,这句话特别贴切——山重水复疑无路,柳暗花明又一村。我们遇到很多这种情况,有的时候做感觉做到头了,但是又有新的路出来,不是靠技术细枝末节的积累,是靠创新性方法,都是创新性终结性的方法把境界不断的提高,所以创新特别重要,这里面有很多的挑战,其实包括一带一路,你神经网络分析基本假设没了,大数据没了,因为双语不会那么多,这里有很多挑战。这块我认为理性主义和经验主义将来还会在某种程度实现回归,不可能完全都是经验主义往前走,这个问题就更深了。
总的想法就还是我们要创新,你看这个机器翻译历史上,我们中国人的创新很少,我们基本都跟着人家跑。像谷歌的深度学习神经网络出来以后,当时我看到这个报道觉得这个模型几乎人家都做出来了,我还觉得这个事儿不可思议,这是差距。为什么?因为那个模型,比如说把你们这些人打一个包一压缩以后分解成那边的那波人,相当于做这样一个映射,这边人捆成一个向量变换成那边一群人,成一个向量,一大堆压成一个单体,再单体产生一大堆,逻辑还要保持,这个事儿一想非常不可思议,但是确实靠很大的模型就建立这么一个复杂的映射,我们的创新能力确实不够,所以创新能力要注意。
第二点,既然到了秋季赶快摘桃子,创新能力不够,但是毕竟到了收获季节,你还是利用人家的创造季节还是可以做很多的有创造性的创新性的事儿,比如刚才的古诗就是一个例子。
本文题图雷锋网引用自:视觉中国