云从科技与上海交大 AAAI 入选论文解读：语义角色标注新思路 get

2019/02/19 09:53

雷锋网 AI 科技评论消息，AAAI 2019 已于月初落幕，国内企业也在陆续公布自家被录用论文名单。本届大会共收到 7700 余篇有效投稿，其中 7095 篇论文进入评审环节，最终有 1150 篇论文被录用，录取率为 16.2%。

上海交通大学与云从科技联合创新实验室论文《Dependency or Span, End-to-End Uniform Semantic Role Labeling》被 AAAI 2019 录用，在这篇论文中，模型通过对谓词、论元评分，以及谓词和论元的一个双仿射变换，同时实现了对谓词的识别、以及谓词与论元的联合预测。以下为对该论文的详细解读。

云从科技与上海交大 AAAI 入选论文解读：语义角色标注新思路 get

语义角色标注（SRL）旨在发现句子的谓词-论元结构。它以句子的谓词为中心，分析句子中各成分与谓词之间的关系，即句子的谓词（Predicate）- 论元（Argument）结构。谓词是对主语的陈述或说明，指出“做什么”、“是什么”或“怎么样，代表了一个事件的核心，跟谓词搭配的名词称为论元。语义角色是指论元在动词所指事件中担任的角色。主要有：施事者（Agent）、受事者（Patient）、客体（Theme）、经验者（Experiencer）、受益者（Beneficiary）、工具（Instrument）、处所（Location）、目标（Goal）和来源（Source）等。

例如：“小明昨天晚上在公园遇到了小红。”

“遇到”是句子的谓词，“小明”是谓词的发起者，角色为“施事者”，“小红”是谓词的接受者，角色是“受事者”，“公园”是谓词的发生地点，据说是“处所”等。

作为自然语言处理的一项基础性任务，语义角色标注能提供上层应用的非常重要的语义信息。例如在阅读理解应用中，把语义角色标注作为输入的一部分，可以帮助阅读理解应用更加准确确定各部分的语义角色，从而提高阅读理解的准确性。

比如：“小明打了小华”和“小华被小明打了”，这两句话语义完全一致，但由于被动语态引起的主语和宾语位置上的变化，当提问“谁挨打了？”时，阅读理解算法在处理这两句时，有可能会给出不同的答案。但如果我们把语义角色标注也作为阅读理解的输入信息，由于两句话中“小华”都是“受事者”角色，问题也是在问“受事者”是谁，这时阅读理解算法往往比较容易给出一致准确的答案。

明确了一个句子中各个成分的语义角色，可以更好的帮助自然语言的理解和处理。比如在“信息提取”任务中，准确的提取出动作的发出者信息；在“阅读问答”中给出事件发生的时间、地点等。因此，语义角色标注时很多自然语言理解与处理任务的基础，对于实现自然语言处理意义非常重要。

传统的语义角色标注是建立在句法分析的基础上的，但由于构建准确的语法树比较困难，基于此方法的语义角色标注准确率并不高，因此，近年来无句法输入的端到端语义角色标注模型受到了广泛的关注。这些模型算法，根据对论元的表示不同，又划分为基于区间（span）和基于依存（dependency）两类方法，不同方法的模型只能在对应的论元表示形式上进行优化，不能扩展、应用到另一种论元表示上。

云从科技与上海交大 AAAI 入选论文解读：语义角色标注新思路 get

图一 Span与Dependency统一语义角色标注架构

我们的论文则通过提出一个统一的谓词与论元表示层，实现了将论元表示形式的统一（参见上图中的Predicate&Argument Representation层），因此，该模型可以接受不同论元表示形式的数据集进行训练。

此外，我们的模型通过对谓词、论元评分，以及谓词和论元的一个双仿射变换，同时实现了对谓词的识别、以及谓词与论元的联合预测（参见上图中Biaffine Scorer层）。我们的单一模型在CoNLL 2005、2012（基于Span的数据集）和CoNLL 2008、2009（基于Dependency的数据集）SRL基准数据集上，无论是在自主识别谓词、还是在给定谓词的情况下，相比于学术上目前已知的算法，都取得了较领先的结果，尤其是在span数据集、给定谓词的情况下，我们的单一模型甚至在所有指标上领先于已知的Ensemble模型。结果可参见表二、三、四、五。

云从科技与上海交大 AAAI 入选论文解读：语义角色标注新思路 get