资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

独家专访华为诺亚方舟刘群:从 26 年学术生涯到执掌华为语音语义团队

作者:丛末
2019/08/06 18:15

ACL 2019 刚刚落下帷幕,想必大家对于今年 ACL 的意大利风情以及火热程度记忆犹新,其中最令人印象深刻的则要数 8 篇 ACL 2019 最佳论文出炉的高光时刻,其中,刘群教授团队更是一举拿下了最佳长论文奖,连同最佳短论文奖、2 篇杰出论文奖的华人一作一起,在 ACL 2019 上一展华人风采。

2018 年 7 月,爱尔兰都柏林城市大学教授、自然语言处理和机器翻译领域专家刘群正式加入华为诺亚方舟实验室的消息,引起了学术、工业两界的不小轰动。而将时间维度再往前推 6 年,刘群教授的头衔前缀是「中国科学院计算技术研究所自然语言处理研究组负责人」,他在计算所 20 年的学界职业经历,开启了他在机器翻译领域深耕的大门,也成为他在回忆研究生涯时的第一扇门。

日前,AI 科技评论有幸对刘群教授进行了专访,主要就他在学术界长达 26 年的研究经历、加入华为诺亚方舟实验室的的契机、其执掌的语音语义团队的整体布局和未来规划以及对于自然语言处理的发展现状和未来发展方向的看法,进行了一次深度对话。

独家专访华为诺亚方舟刘群:从 26 年学术生涯到执掌华为语音语义团队

刘群,1989 年毕业于中国科学技术大学计算机系,1992 年于中国科学院计算技术研究所获得硕士学位,2004 年于北京大学获得博士学位。2012 年 7 月之前,他是中国科学院计算技术研究所的研究员和自然语言处理研究组负责人。2012 年 7 至 2018 年 6 月,刘群任都柏林城市大学教授、爱尔兰 ADAPT 研究中心(前身 CNGL 研究中心)自然语言处理主题负责人。2018 年 7 月,他正式加入华为诺亚方舟实验室,任语音语义首席科学家,主导语音和自然语言处理领域的前沿研究和技术创新。

他是自然语言处理和机器翻译领域的国际著名专家,他的研究方向包括多语言信息处理、机器翻译模型、方法与评价等。他最初领导研制的 ICTCLAS 开源系统是应用最广泛的中文词语切分和词性标注工具,该项成果获得中国中文信息学会钱伟长中文信息科学技术奖一等奖。他领导的研究组在基于句法的机器翻译领域开展了长期的研究工作,其中代表性成果包括树到串模型、最大熵转录语法模型、基于森林的机器翻译方法等。

刘群教授在自然语言处理顶级会议和期刊上发表论文 60 余篇,迄今为止被引用 6900 余次(GoogleScholar),相关成果获得了北京市科学技术二等奖和国家科技进步二等奖,并授权给很多企业推广应用。他组织承担和重点参与了国家自然科学基金、八六三计划、爱尔兰科学基金会、欧盟第七框架和 H2020 框架等众多大型科学研究项目。刘群教授已培养硕士博士研究生 40 余人,很多学生已成为一些大学自然语言处理和机器翻译领域的活跃研究人员和一些大型互联网企业的机器翻译团队的负责人。

在学术界的那些年:从默默无闻到国际知名

在对自己迄今为止的自然语言处理研究生涯的回顾中,刘群教授分享了很多故事,而这些故事,要从他 1989 年进入中科院计算所就读研究生开始说起。

默默无闻的早期研究之路

1989 年至 1992 年,是刘群教授的研究生阶段。刚进入计算所的时候,他的导师是张祥老师,也就是当时计算所二室的主任,之后分到了陈肇雄老师领导的机器翻译课题组。正是在此期间,他对计算语言学和机器翻译的研究产生了浓厚的兴趣,由此走上了机器翻译这一研究方向,并且在以后的研究工作也一直集中在该领域,从未离开过。

硕士毕业后,陈肇雄老师从计算所二室独立出来,成立了计算所机器翻译中心,而当时的刘群还是一个初出茅庐的研究人员,他选择了留在计算所二室,开始独立开展机器翻译研究,并选择了汉英机器翻译这一具体的研究课题。而在此期间,他与北京大学计算语言学研究所展开了合作,并由此与其后来的博士导师俞士汶老师结缘。

从毕业到 1998 年,刘群领导的研究团队与北大的合作项目初见成效,汉英机器翻译系统参加 863 专家组组织的中文信息处理与智能人机接口技术评测取得了较好的成绩,刘群的研究工作也迎来了一次小的高潮

1999 年至 2004 年,是刘群的博士阶段,他继续在汉英机器翻译这条研究轨道上深耕。而值得一提的是,在此期间,国际上的机器翻译研究发生了较大的变化,其中一个最大的变化便是 IBM 公司自 1989 年便开始研究的统计机器翻译方法,这种方法在国际上经过多年沉寂后,从 1999 年开始流行起来,而国内大部分的研究者还没有意识到这个变化。

而刘群意识到这一问题的时间已是 2002 年,当时他参加美国 NIST 的汉英机器翻译评测,结果让其大失所望,也使其意识到了统计机器翻译方法与传统的规则方法相比所具有的明显优势,开始转到了统计方法上来。

而这一年也被刘群教授视作其研究生涯的一个重要转折点:研究方式从传统的规则方法过渡到统计方法,由此在之后的几年时间内取得了一系列突破性成果,工作成果从默默无闻开始在机器翻译领域崭露头角。而他本人也在这一段时间获得了博士学位,并不久就在计算所评上了研究员(相当于教授),完成了作为一个研究人员身份的转变。

工作成果开始在机器翻译界崭露头角

2005 年,刘群教授领导的团队在 NIST 评测中获得了第五名的成绩,并且在这一年,他的学生第一次在 ACL 上发表了论文。对于当时还较为沉寂的中国自然语言处理和机器翻译研究界而言,刘群教授的这些成果算是为中国的自然语言处理和机器翻译在国际舞台上露了一次脸。

刘群教授感慨道:「在此之前国内基本上只有微软亚洲研究院在 ACL 有一些成果,但那个时候微软亚研在国内是非常高大上的,他们可以从世界各地聘来最顶尖的研究人员,同时高薪聘请国内最资深的教授和最聪明的年轻人,并给这些研究人员提供最好的研究条件,这让国内的大学和研究机构都望尘莫及。那时国内高校和研究机构基本上没有人能够在 ACL 上发表论文,然而我的课题组连续两年发表了三篇论文(2006 年又在 ACL 上发表了两篇论文),并且我们还在 NIST 评测中取得了第五名的成绩,而前四名都是这一领域知名的研究机构,并且互相之间有很多的交流和合作。而我们在当时国际交流比较少、国内外开源工具都非常有限的情况下,独立做出这样的成果是非常难得的,所以当时无论在国内还是在国际上的影响,都比较大。」

而这些成果的取得,很大程度上还是源于刘群教授开始启用统计方法来研究机器翻译的远见。

另外在 2002 年开始用统计方法做机器翻译到 2005 年在国际舞台上取得成绩期间,刘群教授还做了一些比较有影响力的工作,其中一项便是基于统计方法做中文分词,取得了国内最好的成绩,并且,他还将这一工具进行了开源,缓解了这个研究领域的瓶颈问题,提升了整个国内中文自然语言处理和机器翻译领域的研究水平。

刘群教授谈到,也就是从这几年开始,他在自然语言处理和机器翻译领域的工作开始具有了较大的影响力,获得了该领域较大的关注。

离开计算所,任职都柏林城市大学

就刘群教授看来,其职业生涯比较重要的转折点便是 2002 年看到了国内外在机器翻译研究上的差距,转而开始使用统计方法来研究机器翻译,并在此领域开展了一系列深入的研究工作,也由此在该领域产生了比较大的影响力。

而在加入华为开始工业界的征程之前,刘群教授在学术界的职业生涯还发生了另一项重大的变动:于 2012 年离开计算所,前往都柏林城市大学任职。

在计算所任职的那 20 年,除了研究上从默默无闻到开始在机器翻译领域崭露头角,刘群教授回忆起来,还用了另外一句话来做形容,那就是「没有尽头的经费压力」。

「我在计算所带团队的时候压力非常大,主要是来自经费的压力。当时国家给我们的经费大概是工资的百分之二三十,经费不够就需要你自己去争取国家或者企业项目挣经费,那段时间随着我们的工作影响力逐渐增大,计算所在各方面给了我很多支持,我的团队也在逐渐增大,最大的时候达到近 30 人,然而维持这个团队的经费是要我们自己去争取的。结果好几次在年终结算的时候,我们的经费都严重超支,几乎难以为继。所以很长一段时间里,我基本上没有心思去做其他的事情,整天就是去找项目做以维持团队研究开销。」

这也成为刘群教授在 2012 年选择离开计算所到爱尔兰都柏林城市大学任职的原因之一,而另一个更重要的原因则是他希望拥有一段国外科研经历,从而能够更好地了解和直观地感受西方国家的科研体制和从事科学研究的方式。

「其实我本人能感受到国内外学术科研的差距,因此也一直希望能够拥有一段国外科研经历。而在此之前,我最长的一段国外科研经历便是曾到纽约大学访问过两个月,这其实算不了真正的国外科研经历,所以我自己也比较遗憾。此外,我的英文不够好,也不是很有语言天赋的人,因此我认为要想提高自己的英文能力,必须要在国外真正生活一段时间。

当时,都柏林城市大学和我此前一直有合作的一位老师那边正好空出一个教授的岗位,他们通过猎头找到我问我是否有兴趣,我当时也觉得这是一个比较好的机会。与此同时,这段期间我正好拿到了一个比较大的项目,经费足以支撑团队至少两三年的时间,所以当时我就比较放心地将课题组的负责权交给了课题组的其他老师。」

基于这段从国内到国外的任职经历,刘群教授也指出了相比于国外,国内科研环境所存在的一些问题,包括:

在都柏林城市大学任职 6 年以后,刘群教授的研究生涯又迎来了第三个阶段:加入华为,正式从学术界转到工业界。

从学术界到工业界:与华为「惺惺相惜」

加入华为存在历史渊源

2018 年 7 月,刘群教授加入华为,成为 AI 领域学者跨界工业界的又一大重磅消息。对此,刘群教授给出了 4 点原因:

那为什么单单选择加入华为呢?对于刘群教授给出的答案,我们可以用与华为的「惺惺相惜」来概括

在加入华为之后,刘群教授在工作内容和工作方式等方面无疑也会面临着一些转变,用他的话来说,便是挑战与机遇并存。

诺亚方舟实验室的整体布局和未来规划

自 2012 年成立至今,华为诺亚方舟实验室一直以来都是一个相对低调的存在。在本次采访中,刘群教授也跟我们聊了聊其负责的诺亚方舟语音语义实验室的整体布局以及未来规划。

诺亚方舟语音语义实验室整体布局主要为三大块:语音、对话和翻译。而除此之外,现在实验室还有一个比较重要的研究方向——多模态。他指出,随着深度学习等技术的引入,自然语言处理技术与计算机视觉等其他技术从完全隔离的状态逐渐走向互相打通,多模态也从不可能走向易于实现,并且未来还会有很大的研究空间,因而实验室对于该研究方向也非常重视。

而谈到实验室未来的规划,刘群教授表示,除了以上四个方向,他还在主导实验室抓另一研究方向,即语言模型。「它其实是自然语言处理的一项基础技术,针对这一研究方向,我们目前正在从事的一项具体的研究工作,叫做预训练语言模型,近期实验室也投入了很多的力量来深耕这个方向,因为我们希望能够在这一非常基础的工具上占据先导地位。」

与此同时,加强国际人才合作也是实验室在今后非常重视的一个方面。「在技术研发上,我们并不是任何事情都要自主去做,而是希望能够借助外脑,跟世界上最好的研究者合作,然后对他们予以最大的支持去开展科研项目。」

针对国际合作,我们也聊到了当下的中美摩擦是否会对华为的国际科研合作造成影响,刘群教授非常肯定地回答:不会。他表示,中美摩擦其实属于特殊情况,包括美国在内的世界范围内的绝大多数科学家其实都反对美国的这一行为,虽然现在中国和美国的科研合作出现一些问题,但中国与其他国家之间几乎不会出现这种情况,因而当前美国与华为的冲突会更多地影响到产品供货方面,而科研方面的国际交流很大程度上都是通过公开发表学术论文和开放源代码等形式进行的,因此限制合作的影响相对来说小得多,几乎不会影响甚至会促进华为与美国以外地区的国际合作。

NLP 当前发展超出预期,未来又将走向何处?

刘群教授作为自然语言处理领域的领先专家,AI 科技评论与他的对话自然免不了谈到自然语言处理目前的发展现状以及未来发展方向。

当问及如何看待自然语言处理目前的发展现状,刘群教授表示:超出预期。「我以前基于规则研究机器翻译的时候,觉得有很多问题都太难了,有生之年都不一定能看到这些问题得以解决,但是现在,很多问题都被很好地解决了。因此以前一些我不敢去做的研究,比如说语义问题,我现在都可以考虑去做了。」

同时,刘群教授还指出了近年来自然语言处理领域出现的两大革命性成果:一个是神经网络和深度学习的出现变革了自然语言处理研究的范式,把自然语言处理问题的定义和求解从离散的符号域搬到了连续的数值域,导致整个问题的定义和所使用的数学工具与以前完全不同,使得该领域发生了极具革命性的变化;第二个是从去年开始出现的预训练语言模型,能够一定程度上实现「一个模型包打天下」,能够解决自然语言处理领域相关的所有问题,由此就克服了此前一个问题就要设计一套方法的难题,将该领域研究提升到了一个新的水平。

而关于自然语言处理未来的研究方向,刘群教授认为语义问题是今后值得重点关注的研究方向

他指出,语言问题一般分为两类,一类是形式问题,一类是语义问题(即意义问题),目前神经网络能够比较好地解决形式问题,但是语义问题还是一个待攻克的难题。而语义问题中最难的地方,实际上是对现实世界进行建模,而现实世界有包括物理世界(客观世界)和主观世界。

以物理世界为例,其实我们用语言来描述一个物理世界是一种非常粗糙的建模,因此自然语言处理即便从语料库中学到了某个东西的相关语言描述,但它依旧无法理解某个东西在物理世界中呈现的样子。但人不一样,我们每个人脑子里都有一个世界模型,根据一句话就能在脑海中想象出这句话在物理世界或主观世界中的呈现面貌。

对现实世界建模在具体的自然语言处理研究方向上,包括两个部分:一是让自然语言处理研究与知识图谱结合,尝试图神经网络、概率图模型等新的研究方向,将图与语言结合起来研究;二是在自然语言处理研究中结合多模态,实现语言、视觉等多种模态的互通。

「目前我的很多研究工作都在往这个方向走,也认为未来几年会有一些成果出来,但是这一研究方向具体的实现程度以及何时能够达到一个理想的状态,我目前还不敢说,因为我目前还很难想象到一个机器能够完全跟人一样,对现实世界中的万事万物都有一个认知和理解。」

给后辈研究者的经验分享和建议

无论是作为一位科学家在自然语言处理领域的研究工作上,还是作为一位教育者在培育人才方面,刘群教授都可以说是结出了累累硕果,对于后辈研究者,能从他身上借鉴的经验自然很多,其中非常重要的一点便是从研究问题出发、热于拥抱新技术的科研品质,而这一点更是刘群教授一直坚持的一套研究方法论

一方面,一直以来我做研究的一个特点就是从问题出发,这跟很多研究者强调方法的研究思路不一样,因此在研究工作中,我最大的目标就是解决问题,而不在乎用什么方法,这也让我形成了一个很好的心态,就是非常愿意拥抱新技术,比如我一开始用规则方法在机器翻译领域深耕,发现统计方法的优势后,我很快就转向统计方法,后来神经网络方法出现后,为机器翻译提供了全新的视角和可能性,我又转到神经网络方法来研究机器翻译。无论是从规则方法转到统计方法,还是从统计方法转到神经网络方法,都是研究方法上的巨大变化,在早期新的研究方法效果还不是很明朗的时候,这种转移是比较困难,而且需要冒较大风险的。但我总是能够比较敏锐地意识到这种新方法在解决问题上的优势,从而比较早地实现这种转移,因此也能较早地做出一些有影响力的成果。

另一方面,我从来不去做填坑式的研究。所谓填坑式的研究,就是一旦机器学习领域提出一种新的方法,总有人很快把这种新方法在各种 NLP 问题上都刷一遍,然后宣称自己是第一个用某种方法来解决某个问题的人。我的研究都有比较强烈的问题背景,目的是为了解决某个具体问题,有比较明确的 insight,而不是为了采用某种方法去做一个研究。在我看来,只要能解决问题,不管采用什么方法,不管采用的方法是否时髦,都是好的研究。」

与此同时,基于目前国内整体较为浮躁的科研现状,刘群教授也特别针对后辈研究者强调了一点:切勿急于求成!

「现在有些学生都在急着提出一个新的想法,然而这些想法实际上并没有什么影响力,就算发表了论文也没有什么太大的意义。相比之下,一些虽小但存在实际价值的想法反而以后可能成为重要、有影响力的研究方向,这是很难说的的。所以我建议他们还是要多去看看问题,而不是一开始就着急去看一大堆论文,在没有抓住问题的本质的情况下就去尝试去提出新的东西。」

附:获 ACL 2019 最佳长论文奖感言

针对刘群教授本次获得 ACL 2019 最佳长论文奖这一重磅奖项,AI 科技评论也第一时间向刘群教授表示了祝贺,并邀请他为大家分享了获奖感言:

这次获奖我们感到非常荣幸,感谢大会对我们工作的高度认可。这篇论文的主要工作是对神经机器翻译中长久以来一直存在的暴露偏差问题提出了一种有效的解决办法。


论文的第一作者是我在中科院计算所的博士生张文,他今年刚刚通过博士答辩,这个工作是他的博士论文工作之一。说实话,张文同学入学时的基础并不很强,不过通过他在读博这些年的刻苦努力,研究能力和学术水平都有了大幅度提高,近两年来发表了多篇高水平的学术论文,这次获奖也是实至名归。


论文的第二作者冯洋老师,是现在中科院计算所自然语言处理研究组组长,也就是我原来的计算所课题组如今的负责人,她对这篇论文也付出了大量的心血。而冯洋老师原来也是我的博士生,她博士毕业后在英国、美国做过多年博士后研究,后来回国又分别在百度公司和清华大学各工作过一段时间,在学术界和企业界都有丰富的研究经历,此外她也在 ACL、EMNLP 等顶级会议上发表过很多篇高水平论文。此次获奖更是对她的研究水平和团队领导能力的有力证明。


非常感谢张文同学和冯洋老师,也感谢其他合作者。


与此同时,我也非常高兴看到我原来的课题组在冯洋老师带领下能够再次取得这样出色的成绩。而诺亚方舟实验室目前也正在跟冯洋老师启动一个合作项目,并期待与计算所的合作能够取得更丰硕的成果。

(完)   雷锋网雷锋网雷锋网 

长按图片保存图片,分享给好友或朋友圈

独家专访华为诺亚方舟刘群:从 26 年学术生涯到执掌华为语音语义团队

扫码查看文章

正在生成分享图...

取消
相关文章