今天,朋友圈里又传来一阵激烈的讨论,原来是特斯拉 CEO 伊隆马斯克又放出“狂言”:90%的学术论文都是毫无价值的。
其实,在很多从事学术研究的老师和学生看来,是多少有一些认同感的。相信不会有人因为这句话就否定论文在基础理论和应用层面的带来的巨大创新力,很多人争论的点仅是到底百分之多少有价值的问题。那么雷锋网认为论文既然还要写,就应该努力去做那有价值的那部分。基于此,我们联系到一些最近刚刚被NLP领域的顶级会议ACL收录的论文作者,跟他们聊了聊如何写出一篇优秀的学术论文的话题。
近日,自然语言处理领域国际最权威的学术会议 ACL(The Association for Computational Linguistics) 公布了其2017年录用的论文。
以人类语言为研究对象的“自然语言处理”(Natural Language Processing:NLP)是人工智能最重要的研究方向之一。作为在 NLP 领域世界范围内影响力最大、也最具活力的国际学术组织,ACL(国际计算语言学会)第 55 届年会将于 2017 年 7 月 30 日至 8 月 4 日在加拿大温哥华举办。
4月22日,为了促进国内自然语言处理相关研究的发展以及研究者之间的交流,中国中文信息学会青年工作委员会联合腾讯公司在北京举办了“ACL 2017论文报告会”,邀请到了国内部分被录用论文的作者报告其论文方法,共同探讨自然语言处理领域的新发展和新技术(附讲者Slides下载)。
雷锋网 AI 科技评论作为合作媒体也应邀参与,并在会后采访了部分的作者,请他们就论文投稿技巧、心中的偶像、今后的打算以及新旧研究方法之间的联系等问题表达了自己的看法,雷锋网将回答汇总整理如下。
吴双志:经验的话谈不上,就是一个按部就班的过程吧。首先我本身就是以做神经网络机器翻译课题为主的,所以需要对现有模型的优点缺点有较为深刻的掌握和理解。平时就会看很多相关的工作,找找灵感。这次的投稿的内容也是去尝试解决翻译中的一个经典问题。至于方法,是在一次偶然的机会中跟同事讨论时定下来的,当时也是抱着尝试的心态。当模型雏形做出来以后发现效果挺好的,从而继续深入的做下去。后来刚好在ACL投稿之前就都差不多完成了,就投了ACL。所以我觉得就是一个按部就班的过程吧。
何世柱:博士期间我一直在做知识库问答相关的工作,了解到知识库问答目前研究中的一个重要瓶颈就是问答-答案标注数据的匮乏。正好课题组内有师兄在研究社区问答,而社区问答中有大量的用户标注的问答-答案数据,虽然这些数据有噪音有错误,但还是非常有价值的资源。因此,那时候就想是不是可以利用社区问答的数据帮助知识库答案。早期的想法还是比较朴素,没有想到比较好的模型来做这样的任务。16年上半年,看到了华为诺亚方舟实验室的几个相关工作,并与相关作者进行了深入的沟通和交流。受此启发,针对我们的问题设计了文章的模型。
在选题的时候,与组内老师进行了讨论,他们认为课题是有意义的,但是难点就在于如何评价。目前还是没有很好的评价方法,只能采取边工作边摸索的方式推进工作。任务是什么,解决的问题是什么,模型是如何解决这些问题的,这些思路确定之后,论文的撰写就比较流畅了。
另外,写作过程中,老师和同学,特别是非该研究方向的同学,帮助检查也是非常重要的。个人认为研究中仔细思考讨论“要解决什么问题”和“如何解决这个问题”至关重要。
罗炳峰:这篇论文的选题是相对比较自然的一次。我在做关系抽取的相关实验的过程中,发现数据集的噪声很大程度上影响最终关系抽取器的效果。而通过查阅以往文献,发现以往的工作对这一问题处理的比较粗糙。于是我就通过查询其他领域的噪声处理相关文献寻找灵感,并结合关系抽取的具体情况设计出了现在的算法,并做了相应的实验。由于写代码和做实验还算顺利,所以初步完成这个工作并没有花太多时间。不过由于这个工作的头绪比较多,所以花了比较大的功夫写稿,从开始写到初步定稿就花了一个多月的时间。功夫不负有心人,最后审稿人给的分数也比较高,所以从投稿到收录都比较顺利。
经验方面,首先我觉得选题是论文的基础,选择的研究方向最好要么可以解决一类问题,要么可以觉得可以显著提升一个重要的任务。方法设计方面,可以从问题本身出发,分析出问题的本质是什么,难点是什么。明确了问题之后,就可以结合大量的文献调研来寻找灵感,同时也确保自己的方法的新颖性。
最后写稿的时候,一定要认真对待,因为工作做得再好,写的让别人看不明白,或者论证不充分都是白搭。最好在截稿日前一个月就开始写,然后通过迭代来逐步完善。在迭代的过程中,一定要找有经验的人(比如导师和高年级学长学姐)提一些意见,争取把审稿人可能会觉得有问题的地方都在文章中说清楚。比如我这次写稿就被指出了intuition写的不够,文章脉络要重新组织,缺某一块的实验,实验论证的太浅等一系列问题。要发现这些问题需要有充足的投稿经验,而我们学生在这一点上往往是欠缺的,所以多找有经验的人提一些意见可以大大提高最终论文被录取的概率。
不愿具名的作者: 这次比较幸运,我的工作能够被ACL收录。本文提出的模型简单但方法相对比较新颖。由于研究方向是信息抽取,所以一直以来都在针对信息抽取相关任务进行方法上的探索,并不存在着一个选题的问题。许多的工作都在方法的尝试和探索方面。
关于方法的探索方面,这次没有局限于已有的抽取方法框架,而是从NLP的其他研究任务中借鉴思路,把我们需要研究的抽取问题转换为了另外一种形式“序列标注问题”,从而方便使用更有效地端对端模型去实现抽取,并在相关数据集中实验,实验结果也验证了方法的有效性。
有了上述的实验工作就可以开始撰写论文。一般我写论文的思路都是:提出问题(说明清楚本文旨在研究一个什么样的任务,它有什么意义),分析问题(该任务的特点以及已有方法存在的问题),解决问题(本文设计模型的思路以及模型的创新性)。力求思路清晰,逻辑严谨,描述简单易懂。在学术的路上我还有许多需要学习的,上述只是自己在研究过程中的一点习惯和经验。
涂存超:我觉得选题最重要的方面是面向真实存在的问题,提出自己的解决方案,不要无病呻吟。motivation足够强或研究的问题足够新,才会有更大的把握被ACL这种专门领域的顶会录用。
夏乔林:我的论文虽然是NLP领域的,但是之前受到了很多篇其他领域论文的启发,所以我的体会是,多看一些自己学科的论文可能是有好处的。
何世柱:NLP方面比较崇拜的是斯坦福大学NLP组的Percy Liang。阅读过他的相关文章,也深入研究过他开源的想法。发现他不仅文章写得好,代码也非常漂亮,阅读他的文章和代码收获非常大。
不愿具名的作者:没有固定的偶像,只有一些欣赏的工作。像Hinton, Lencun等这些高高在上的大牛们,更多的是一种敬畏和膜拜。此外,我比较佩服Mikolov这样的年轻学者,博士刚毕业就发出了影响力巨大的Word2vec工作,将学术和工程结合的很好。
涂存超:学术界偶像:Christopher D. Manning;业界偶像:Tomas Mikolov
吴双志:我个人来说是比较喜欢搞研究的,而且也很希望能将研究成果放到到实际应用中。所以我希望能加入既能做研究也能实现产品转化的公司吧,至于创业的话,还没想过。
何世柱:暂时没有加入产业界的想法,也没有创业的打算(可能再多磨炼磨炼吧,个人觉得创业非常难)。还是更喜欢科研中的自主性。但是我们的相关研究其实是与产业应用非常相关的,比如我这次的文章就是解决产业上的真实用户需求,因此,我们也非常乐于跟产业界合作,因为可以更准确的获取用户的真实需求和数据。
夏乔林:还在读博,但会考虑去谷歌这样的公司实习,大牛的集中地,应该会学到很多东西。国内想尝试去一些创业公司实习。
涂存超:打算创业。
吴双志:我觉得神经网络与传统方法相比是有很多优点的。神经网络具有很强的学习能力,我们知道在很多任务中,传统方法可能需要复杂子模型结合一起才能完成,训练过程和使用过程复杂,需要有较多的背景知识。然而神经网络却可以用一个网络对任务进行建模,并且在很多任务上的性能优于传统方法。神经网络模型降低了很多自然语言经典任务的门槛。但是我觉得不能太盲从于神经网络,在应用神经网络的同时还要对具体任务做一些反思。传统方法是领域专家们很多年的研究成果,非常值得我们借鉴。
所以我觉得对于一个具体任务而言,我们不能仅仅去把神经网络拿来就用,还应该掌握这个任务的传统,经典方法。
何世柱:这个问题很大,我只能是根据自己在实践中的感受来进行回答。神经网络和传统方法各自有优缺点,神经网络表达能力强,可以对数据进行很好的泛化(本质是上平滑),有更强的记忆能力(能存储和匹配数据中更多的模式),但是神经网络方法对于数据的要求比较高,大量高质量的数据才能学习好的模型。传统方法可以很好的融合人的知识,实际上现在很多神经网络的方法也在尝试加入更多的外部知识,比如机器翻译中加入句法信息其实就是一种外部知识。我们的工作也是在神经网络中融入存储于外部知识库中的知识。
罗炳峰:我觉得神经网络的方法很大程度上是对传统方法研究的问题提供了一个新的建模的视角,即区别于传统方法通过人工构造特征对问题进行刻画,神经网络方法可以通过设计神经网络的结构,来对问题的各个特性进行建模,或者通过深层网络使得模型自己学习特征。虽然神经网络刚提出时宣扬的优势之一就是不需要特征工程,但是其和传统的基于特征的方法本身是不冲突的,比如Google的Deep&Wide模型就是神经网络模型和传统特征工程方法结合的一个典型实例。另外像LSTM+CRF这类模型又是神经网络的结构建模方法和概率图模型的结构建模方法的一个有效的结合方式。相信今后会看到更多的神经网络方法和传统方法结合的案例。
不愿具名的作者: 目前的热点的神经网络方法更偏向于一种数据驱动型的方法,相比传统方法,无需更多的人工干预工作但对训练数据具有很强的依赖性,在如今的大数据时代以及计算资源丰富的情况下,相对更具优势。此外,二者也并非完全独立,也可相辅相成。比如传统的人工定义规则模板的方法,这类方法可以提供准确的先验知识,如何将这些准确的先验知识和神经网络模型进行融合。
*出门问问NLP工程师李超对本文有贡献。