ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

作者：章敏

2016/07/27 10:57

通过整合基于路径的方法和分布式的方法改善词对检测

联合编译：章敏，高斐，陈圳

摘要

在自然语言处理（NLP）中，理清词对关系是一项的关键任务，在一份使用两种互补方法的文献中也强调这一点。分布式方法：其监督式的变体是目前最好的任务执行器；基于路径的方法：它只受到少许的研究关注。我们发现，改善后的基于路径的算法——其依赖的路径（dependency path）通过递归神经网络进行编码——与分布式方法相比应该能达到理想结果。然后，我们将所用方法延伸为整合基于路径的和分布式的信号，这显著地将此任务上的性能提高到了当前最佳的水平。

1.简介

在自然语言处理任务中，词对关系是非常重要的词汇语义关系。例如，知道Tom Cruise是一个演员，有助于问题回答系统回答问题如：“哪个演员参演了Scientology”。而语义分类，如词汇网络（WordNet），在词汇类型之间定义了词对关系，但他们在范围和领域中是有限的。因此，已经开发了自动化的方法来确定，对于一个给定的词对（x，y），y是否是x的词对，取决于它们在大型语料库的产生过程。

几十年来，这个任务已经有两种类型的解法：分布式和基于路径。在分布式方法中，y是否是x的词对取决于这些术语的分布表示。之后，随着流行词汇的嵌入，大部分注意力被转移到了监督分配方法，其中每一个词对（x，y），都用了一些词的嵌入向量组合进行表示。

相比于分布式方法（决定基于x和y单独的上下文），基于路径的方法，是基于语法词汇路径联合语料库中x和y的共同发生进行抉择的。Hearst定义了一个很小的频繁路径集来表示词对关系，例如，Y如X，Snow等人，将每一个词对（x，y）表示成依赖路径的多重集合，连接他们在语料库中的共同出现，并基于这些特征，训练了一个分类器来预测词对关系。

使用单独的路径作为特征会导致一个巨大的，稀疏的特征空间。尽管一些路径是稀有的，它们也是由某些不重要的组件组成。例如，““Spelt is a species of wheat” 和 “Fantasy is a genre of fiction” 产生两个不同的路径：X be species of Y 和X be genre of Y,但两个都暗示了X is-a Y。唯一的解决方法是和PATTY系统所做的一样，通过使用他们讲话的一部分标签或百搭牌代替路径上面的词汇来归纳路径。

总体而言，最好的路径为基础的方法的性能比分配方法更糟糕。基于路径的方法的一个主要限制是：他们要求，词对一起在语料库中发生，限制了召回这些方法。然而分布式的方法没有这样的要求，他们通常不会精确检测一个特定的语义关系如词对关系，并且在检测词之间的广义语义相似性方面性能非常高。虽然这些方法似乎是互补的，但整合他们的工作却不少。

在本文中，我们提出了HypeNET，一种结合基于路径和分布式的方法，用于上下文语境检测。受到最近关系分层方面研究的启发，我们使用了一个长短期的记忆（LSTM）网络，进行依赖路径的编码。为了给我们的网络创造足够的训练数据，，我们遵循了以前的方法，即构建一个基于知识资源的数据集。

首先，我们展示了基于路径的方法，在它自己本身方面，相比于以前基于路径的方法性能得到了很大的提高，并达到了分布式方法一样的性能。我们的分析表明，神经路径表示，可以确保更好的概括。虽然粗劣的概括，如通过它的POS标签取代一个词，是捕获路径之间主要的句法的相似性，HypeNET也是同样捕获语义的相似性。

然后，我们表明，我们可以很容易地在网络中集成分布式信号。整合结果表明，分布式和基于路径的信号实际上提供了补充信息，相比于每一个单独的模型，结合模型的性能提高到了14F1点。

2.背景

我们介绍了两个用于词对关系检测的主要方法：分布式方法，和基于路径的方法。随后我们讨论了递归神经网络在关系分级相关的任务方面的应用。

2.1分布式方法

词对关系检测是常用的分布式方法。在该方法中，基于两个术语的分布表示检测y是否是x的词对，例如，在语料库中每一个术语单独出现的语境。

以前的方法开发出了词对的无监督方法，从对称相似测量开始，并遵循基于分布包含假设的定向方法。这一假说认为，一个下位词的语境预计将在很大程度上包含那些上位词。最近的工作介绍了新的措施，它是基于这样的一个的假设：上位词最典型的语言语境比下位词的信息量更少。

最近，分布式方法的焦点转变成了监督方法。在这些方法中，（X，Y）术语由一个特征向量表示，并且在分类器上训练了这些向量以预测词对关系。有几种方法将术语对表示为每个术语嵌入载体的组合：级联x向量⊕y向量，差异y向量-x向量，点积x向量·y向量。使用神经词汇嵌入，这些方法很容易容易投入应用，并产生好的结果。

2.2基于路径的方法

有一个检测术语对（x，y）之间词对关系的方法，考虑到了词汇-语法路径（连接大的语料库中x和y共同发生的接口）。从自由文本中自动探测和跟踪上位词，就是基于这样的一个路径，它是由Hearst首先提出的（确定一小套词汇句法路径表明上下文关系，例如Y such as X, X and other Y）。

在后期工作中，Snow等人学习检测上下文关系。并非搜索寻找具体路径表明上下文词对关系，他们将每一个（x，y）语术对表示成所有依赖路径的多重集合——连接语料库中x和y，并基于其他路径训练一个逻辑回归分类器，预测y是否是x上位词。

路径表明上位关系是那些被分类器分配高权重的东西。通过这种方法确定的路径将被Hearst证明包括这些发现，温和的提升性能。Snow等人方法的变化后期会被用于很多任务如：分类建设，类比识别，和定义提取。

依靠词汇句法路径的一个主要的限制是特征空间的稀疏性。由于类似的路径可能会有所不同，在词汇层面，概括这种变化到更多抽象路径可以增加召回。PATTY算法用于概括从自由文本中获取长期关系的分类。对于每个路径，他们添加了广义版本，其中的一个沿路径的单词的子集将被替换，可以是是他们的POS标签，或其本体论的类型或百搭牌。这种泛化会增加召回，同时保持相同水平的精度。

2.3用于关系分类的RNNs

关系分类是相关的任务，它的目标是：将一个给定的语句中两个相近的目标项，表示到一个预定义的关系类中。为了说明，考虑下面的句子，来自SemEval-2010关系分类数据集：“[苹果]_e1在[篮] _e2中”。其中，目标实体之间的关系表达：内容−容器（e₁，e₂）。

目标实体之间的最短的依赖关系的路径，被证明是用于这个任务的信息。最近，深度学习技术在捕获这样路径中的指示信息方面，表现出了良好的性能。

特别是，有几篇论文表明使用递归网神经网络（沿边缘到边缘处理依赖路径）提高了性能。Xu等人对于每个序列词，POS标签，依赖标签和沿着路径的词汇网络，应用了分离长短期记忆（LSTM）网络。LSTM中max-pooling层的输出被用作网络的输入，预测分类。其他论文建议混合额外的网络架构，以进一步提高性能。

尽管关系分类和词对关系检测都涉及识别语义关系（持有条款对），但他们在主要方面有所不同。在关系分类中关系应在给定的文本中表达，而在上位关系检测，目标是在术语（在许多语境中持有的术语）之间识别一个通用的词汇语义关系。因此，关系分类术语对由单独依赖路径表示，而在上下文关系检测中，它是由所有依赖路径的多集合（在语料库中共同出现）表示。

3.基于LSTM的上下文关系检测

我们提出了HypeNET，用于上下文关系检测的基于LSTM的方法。我们首先专注于改善路径表示（第3.1节），然后将分布式信号集成到我们的网络中，最后产生组合方法（第3.2节）。

3.1基于路径的网络

和前期的工作类似，我们将每一个依赖路径表示成边缘的序列（在依赖数中引导x至y）。每一个边缘包括论点和源点的部分演讲标签，依赖标签，和两个后面点之间的边缘方向。我们定义每一个边缘为lemma/POS/dep/dir。说明见图1。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

图1：句子“parrto is a bird”的依赖树实例，其中 x=parrot，y=bird，符号可表示为 X/NOUN/nsubj/< be/VERB/ROOT/-Y/NOUN/attr/>。

并非将整个依赖路径看成单独的特征，我们还使用了长短期记忆（LSTM）网络编码边缘序列。从不同的给定（x，y）对路径获得的向量是共用的，并且结果向量用于分类。图2描述了整体网络结构（下文中将进行描述）。

边缘表示.我们通过串联组成的向量表示每一个边缘：

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

其中向量vl代表论点的嵌入向量，向量vpos代表词性，向量vdep代表依赖标签，vdir代表依赖方向（沿着x到y的路径）。

路径表示.对于由边缘e₁.........e_k，组成的路径p，边缘向量v_e1........v_ek被依次放入LSTM编码器，产生向量Op表示整个路径p。LSTM结构在序列中捕获时间模式非常有效。我们希望训练程序可以促使LSTM编码器集中于路径部分——更多的信息用于分类任务，而忽略其他的信息。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

图2：词对分类法的插图。每一个词对由几个路径表示。每个路径由一系列边组成，每条边又由四部分组成：词条，POS，依赖标签与依赖方向。每一个边向量依照序列被存储到LSTM中，最终生成一个路径嵌入式矢量O_p。平均路径矢量成为属于对的特征矢量，用于对术语对进行分类。虚线矢量vw_x，vw_y用于指代3.2部分描述的整合网络。

词对分类.每一个(x,y)词对被用于表示词汇句法路径的多重集合，这些路径将语料库中的x，y联系在一起，同是对所有的词对实施监管。我们用每一个词对的路径矢量的平均权值表示该词对(x,y)。在计算过程中，我们对该词对的路径矢量进行平均分摊：

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

其中，f_p（x，y）表示paths（x，y）中o的频率。然后，我们将该路径矢量存储入一个单层网络中，该网络运用二分分类法确定y为x的上义词。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

为一个2维度的矢量，其组成成分的总和为1，倘若c[1]>0.5，我们将该词对划分为肯定词对。

实施细节 .我们运用PyCNN来练习该网络。我们运用迷你批量10与亚当更新规则，结合基于梯度的优化方法，最大限度地降低交叉熵（Kingma & Ba, 2014）。通过减少成分嵌入，以实现应用正规化。我们使用验证集合（参照超参数值的附录）调整超参数（学习速率与辍学率）。

采用在维基百科上训练使用过的预先训练GloVe单词嵌入方式，实现词条嵌入的初始化进程(Pennington et al., 2014)。我们尝试使用50维度与100维度的嵌入矢量，选择出那些在验证集合中得出较好结果的矢量。其他的嵌入矢量及词汇量之外的词条都被随机初始化。在训练过程中，对所有的嵌入矢量实施更新。

3.2经整合的网络

3.1呈现的网络依据语料库中,连接x,y的路径对每一个术语对（x，y）进行分类。我们的目标是改善先前基于路径的上下义关系检测方法，第6部分显示我们的网络确实超过了先前使用的检测方法。然而，由于基于路径式的与分布式的方法被认为具有互补性，我们提出一种更为简单的方法，即将分布式特征整合入网络中。

我们对该网络进行拓展，旨在将每一个属于的分部信息考虑在内。受到监督分布式级联方法(Baroni et al., 2012)的启发，我们简单地将x，y，词汇嵌入与（x，y）特征矢量联系在一起，重新定义为vxy：

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

其中，vw_x，vw_y分别为x，y的词汇嵌入矢量，v_{paths（x，y）}为方程中的平均路径矢量。运用这种方法，每一个词对（x，y）可以用其分布特征，x，y，及其基于路径的特征表示。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

表1：每一种词汇来源中的上下义关系

4 数据集

4.1创建实例

神经网络多需要大量的训练数据，然而，现有的上义词数据集，如BLESS (Baroni & Lenci, 2011)，相对来讲都比较小。因而，我们通过知识资源远程监控这一常见的方法，创建一个数据集(Snow et al., 2004; Riedel et al., 2013 )。Snow 等人(2004)基于词网上义词关系创建了自己的数据库，仿照其创建方法，我们从以下几种数据资源中选取上下义关系：Wordnet (Fellbaum, 1998), DBPedia (Auer et al., 2007)，Wikidata (Vrandecic, 2012)，及Yago (Suchanek et al., 2007).

我们数据集中的所有实例，肯定的与否定的，都是至少与其中一种数据资源存在直接联系的词对。这些语言资源包含成百上千种语义关系，其中有一些具有不同程度的上下义关系。为了避免出现有问题的关系类型，我们仅考虑那些无争议的上下义关系，将其视为肯定的实例（见表格1），这些无争议的上下义关系是我们从Shwartz 等(2015)的论文中人工甄选获得的。

与其他语义关系（包括同义词关系）相关联的词对均被当作否定的实例。将相互关联而非随机性的词对当作否定实例，可以测验我们所选用方法的区分上下义关系与其他类型语义关系的效果。在我们的数据集中，肯定与否定词对的比例保持在1:4。

与Snow等人对词对的选取方法相似，我们的数据集中只包括在语料库中联合出现的词对，这将要求每一个词对至少拥有两个不同的依赖路径。

4.2随机型分割与词汇数据集分割

作为我们主要的数据集，我们使用标准化随机分割法，其中训练占70%，测试占25%，验证集合占5%。

Levy等人(2015)指出，监督分布式词汇推理方法有运用“词汇记忆”的趋势，即在很大程度上，他们学习词对中单一词汇的性质：该词汇是否是一个典型的上义词，而非学习两个词汇之间的关系。例如，如果训练集合中包含如下词对，如(dog, animal)， (cat, animal)， (cow, animal)，且所有这些词对都被注释为肯定词对，该算法便可能将animal当作上义词，将任何新的(x, animal)词对视为肯定词对，不论x与animal之间存在何种关系。Levy等（2015）建议拆分列与测试集，旨在使每一列与每个测试集都包含一个具有特征的词汇（“词汇分割”），防止出现过度拟合词汇记忆的模型。

为了调查上述出现的行为，我们也将呈现我们的数据集的词汇分割结果。如此一来，我们将训练，测试及验证集合分割开来，使每一部分都包含一个特征明显的词汇。值得注意的是，我们采用不同于Levy等人的方法，Levy等人仅对列与测试集合进行分割，主要使用验证集合。之所以采用不同于前人的方法，是由于我们注意到，当验证集合中包含列中的词汇时，当调整超参数时，词汇记忆会对该模型产生积极影响，最终在词汇特征测验集合中计算产生不理想的性能结果。当每一个集合中都包含一个特征词汇时，需要调整参数以避免词汇记忆现象，在测验集合中进行计算时将得出更为理想的结果。进行词汇分割时，我们试图将比例大致保持在70/25/5。以上所创建的数据集规模将呈现在表格2中。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

表格2：每一个数据集中实例的数量

的确，训练一个词汇分割数据集模型可能会产生一个更具普适性的模型，这种模型在推理过程中将会更有效地处理包含两个不可见词汇的词汇对。然而，我们认为，在普通的应用过程中，该推理过程应当设计一个不可见的词对（x，y）,在这样的词对中，x和/或y已经在单独的语料中出现过。训练使用随机分割法的模型可能会采用显示上下义关系或同义关系的优先概率的模型，这一优先概率信息将在推理过程发挥有益的作用。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

图表3：将x归纳为y的实例

5 .基线

我们通过对比Hype NET与几种最好的方法来检测上下义关系，如第二部分所描述：基于路径的方法与分布式方法。由于不同的工作使用不同的数据集和语料库，我们选择复制基线，而非与报道结果进行对比。

自2015年5月起，我们采用维基百科转储作为所有方法的语料库，并运用spaCy对其进行分析。我们使用验证集合进行模型选择，旨在对每一种方法的超参数进行调整。最优超参数将在附录中呈现。

5.1 基于路径的方法

Snow .我们参照原始文章，并提取四条边之间最短的路径，或依赖树中词汇之间较短的路径。与Snow等人(2004)采用的方法相似，我们为每一条路径添加“卫星边”，即那些早已脱离依赖路径的单一词汇，这些词汇或与x相连，或与y相连，形成“将Y归纳为X”的路径。这些特征路径的数量为324,578。我们运用x²特征选择法保存100,000条信息量最大的路径，并训练使用一种逻辑回归分类器。

归纳. 我们也将采用的方法与使用普通依赖路径的基线进行对比。在此过程中生成所有可能归纳方法的幂集，其中包括原始路径。例如，经归纳后的特征数量总计为2,039，220。与第一种基线相似，我们选用特征选择法，此次保留1,000,000条蕴含最大信息量的路径，在普通路径的基础上练习使用一种逻辑回归分类器。

5.2 分布式方法

无监管式方法 .SLQS (Santus 等，2014)是一种基于熵的上下义关系检测方法，据报道，这种检测方法由于先前使用的state-of-the-art无监管式方法。原始文章在BLESS数据集中得到评估，该数据集由大量常用词组成。将同时包含罕见词汇的SLQS设置方法用于检测我们的数据集，最终产生较低性能的结果。因而，我们获得了Enrico Santus的帮助，经过调整系统后，他为我们提供了我们的数据集在SLQS中的检测结果。

该验证集合被用于调整将一个词对划分为肯定次对的阈值，及每一个词汇最相关的语境数量N的阈值。在原始文章中，每一个词汇相关联的语境数量被设定为N，经过调整后，该数量被设定为LMI零分以上的语境数量和N之间的最小值。此外，SLQS分数并不会词汇之间相似分数的余弦值的变化而增长。

监管式方法 .为了表示带有分布式特征的词对，我们尝试过几种state-of-the-art方法。我们下载了几种不同型号的前训练嵌入方法，并训练使用了一定数量的分类器：逻辑回归，SVM，带有RBF枢纽的SVM。据Levy等人(2005)最后一种分类器这组分类器中性能最优的。我们运用验证集合选择模型，旨在甄选出最优矢量，最优方法与正则因子（见附录）。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

表4：基于数据集的两个变体上，将我们所使用的方法与以线路为基础的基准线和先进的分布方法比较在上下位检测方面的性能——词汇分割和随机分割都会用于训练，测试和证实。

6.结果

表4展示了HyperNet的性能评分及其基准线。HyperNet Path-based是基于路径的递归神经网络系统，HyperNet Integrated是一个复合方法。比较基于路径的得出推广路径能提高重复率但是也能保持相同水平的准确率，Nakashole等人发现了这一现象并进行重新评估。HyperNet Path-based 表现优于其余两个Path-based基准线，因为它在重复方面有重大提高，尽管在准确度方面有所下降。重复的提高是由于路径的推广，就如在7.1部分所示。

考虑到分配的方法，为受监督的SLQS基准线在我们的数据集上表现要稍逊一些。精准度不够的原因在于区分上义词和部分名词的不足，这一现象在我们数据集中也十分常见，进而造成了许多错误的阳性词配对，例如（zabrze,poland）和（kibbutz,israel）。在每一个数据分集中我们分别采样50个误报对，发现38%的误报对出现在随机分裂中而48%的误报对出现在词汇分割中，且都是整体部分词对。

根据之前所报道的结果，监督下的嵌入式方法在我们的数据集上表现最好。HyperNET Path-based表现次之，实现了最优的结果。在我们的方法中添加分布式特征显示出这两个方法确实是互补的。在数据分割方面，HypeNET Integrated和HypeNET Path-based表现有差别，此外分布式方法也是一样，有实质性区别，并且p值相差较大在1%左右（配对tc测试）。

我们对在词汇分割部分表现较差的受监督分布式方法进行再评估。进一步观察到在使用HypeNET时会有类似的减少，但这不是哪一个词汇记忆的结果，而是由于过度概括导致的。

7．分析

7.1 对所学路径进行质量分析

通过比较被以路径为基础的方法所学的指示性路径的显著差别，我们对HypeNET在路径结构方面的概括能力进行分析。我们这样做的原因在于寻找能促进在数据集中进行实报对分类的高得分的路径。基于以路线为基础的基准线，数据回归分类器能学习加权最高的特征。在以LSTM为基础的方法中，不易直接鉴别出最有指示性的路径。我们对特定路径p在分类方面的贡献进行评估，通过将它视作是出现在术语对中的唯一路径，并从分类方面计算它的真实标记分数。

Snow的方法是学习特定的路径，这是一个有名的模式，例如X来自于Y。尽管Snow的方法是依靠逐字路径，会限制重复，但是Snow的广义版本能做出简略的概括，例如，X是Y的动词形式。显然，这一路径太过于广泛，并且几乎所有的动词都会被分配到里面，最后导致路径没有指示作用（例如，X来自于Y）。通过努力学习这一方法能避免这种泛化和减低重复。HypeNET提供了一个更好的中点，通过学习额外的相似语义路径能更好地规划路径，例如，X成为Y的一种形式或X是Y的一种形式。在表5中将会对这些额外的例子路径进行行为解释。

我们还注意到尽管是在随机分割上，我们的模式还是能学习到比较宽广的路径，例如X在Y发表（是从以下实例得出的：Y=杂志）或是X是由Y产生的（Y=电影），在词汇分割中仅仅能知道X和广泛的路径关系。我们注意到X是Y是一个比较“吵闹”的路径，可能会出现在特定的场景下，但并未指明广泛的上下义关系（例如，巧克力就儿童的健康而言是一个大问题。）而这样的模式可以基于一般路径，识别看不见的上下义关系，这也证明过度泛化会影响表现，如表4所示。正如在4.2部分所讨论的一样，我们会怀疑在这一中环境下，两者的关系是不可见的，并且用于训练设置也是不常见的。

7.2 错误分析

误报我们对误报进行分类，其主要依据是在资源中用于建立数据集每一对术语之间的关系。我们从不同的方面到广义的分类对语义关系进行分类，例如，同义词也包括别名和维基百科重定向等方面。表6向我们展示了在误报对之间的语义关系分布。

超过20%的错误源于上下位关系词或同义词之间的混淆，着一关系的辨别也是十分的困难的。

额外30%的术语词对会将上下位词对弄颠倒（y是x的下位词。）检查这一些词对实例就能发现这些词对是近似同义词，但是却不是两者之间的关系并没有如此明确。例如，在WordNet中小说（fiction）是故事（story）的上位词，但是我们却经常认为两者是同义词。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

表5：通过研究每一种方法得出的实例具有指示性的路径，同时也从随机分割测试集中选取相应的实报术语对。上位词用红色标记，下位词用蓝色标记。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

表6：在误报词对之间每一对术语之间的关系分布。

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测

表7：（重合）的漏报的种类：（1）x和y同时出现少于25次（每一对实报词对平均共同出现的次数是99.7）。（2）x或是y都不常见。（3）x的上位关系十分罕见。（4）（x,y）错误注释为阳性。

未来的一个可能研究方向就是扩展我们的网络在进行词对分类的同时也进行多语义关系分类。这种分类模式能更好地划分具有相似语义的词对。

另一个值得注意的种类就是类似上下位的关系：在资源中，有其他一些关系能看做是上位词，但是却由于对于来自资源中不具争议上位词的严格选择往往会被注释为阴性。这包括的实例有（歌德（Goethe）职业(occupation)，小说家(novelist)和Homo，subdivisionRanks以及物种(species)）。

最后，其他的错误往往对应词会在语料库中共现几次，例如，xebec，动画制作的工作室，会错误地归类为动画的下位词。

漏报我们取样50个被错误注释为阴性的术语词对，并分析主要的错误类型（见表7）。

大多数的这类词对在语料库中仅仅会共现几次。导致这一现象的原因是因为不常见的术语（例如，cbc.ca）或是xde 上位词关系不常见（例如night，paly）其主要意思是“Night”，是Harold Pinter所写的一部戏剧。而这一术语词对有太多的上位词暗示路径，导致分类成阴性。

8.总结

我们在上位词检测时使用HypeNET，一个以神经网络为基础的方法。首先我们专注于使用LSTM提高路径表现，最后导致以路径为基础的模式比之前的路径模式表现要更好，并把之前的表现出色的分布方法进行匹配。此外特别值得注意的是，重复的提高是由相似语义路径的过度泛化导致的，这一之前的方法刚好相反，之前的方法既不会路径过度泛化也不会泛化不足。

接下来通过整合分布式信号拓展我们的网络，产生额外14个F1点的提升，进而也证明了以路径和分布为基础的方法确实是互补的。

最后我们的框架是直接适用于多种类分类，在今后的工作中可以用来分类词对的多种语义关系。

哈尔滨工业大学李衍杰副教授的点评：理清词对关系是自然语言处理（NLP）领域中一项关键的任务，该论文提出了一种结合基于路径方法和分布式方法两种方法的HypeNET方法，用于上下文语境检测。论文受最近关系分层方面研究的启发，使用了一个长短期记忆（LSTM）网络进行依赖路径的编码，从而改善了基于路径的方法，导致以路径为基础的模式比之前的路径模式表现要更好，然后将分布式信号结合到这个网络中，这种结合证实了分布式信号和基于路径的信号确实提供了互补的信息，极大地提升了性能。作者还指出该框架似乎可以直接适用于多类分类。

PS : 本文由雷锋网独家编译，未经许可拒绝转载！更多ACL相关资讯扫码关注微信群

ACL2016最佳论文：通过整合基于路径的方法和分布式的方法，改善词对检测