资讯 人工智能学术
此为临时链接,仅用于文章预览,将在时失效

入门 NLP 项目前,你必须掌握哪些理论知识?

作者:MrBear 编辑:幸丽娟
2019/08/15 11:41

引言

今年一月开始,我一直在从事一个从非结构化的文本中提取信息的项目。在开始这个项目之前,我对自然语言处理(NLP)领域一无所知。当我刚开始研究这个领域时,我很快就找了一本名为「Python 自然语言处理」的书(图书查阅地址:https://www.nltk.org/book/)。这本书对于我来说过于理论化了,但其中的知识基本是正确的,因此它对我来说仍然是无价的资源。接下来,我发现了 Dipanjan Sarkar 编写的「Python 文本分析」(图书查阅地址:https://www.apress.com/gp/book/9781484243534),并从头到尾通读了此书。这本书真的太棒了,它教会了我入门 NLP 项目所需的所有技术技能。最近,此书的第二版(https://www.apress.com/gp/book/9781484243534)也面世了,对上个版本进行了大量的扩充。

在本文中,我想概述一下我在学习 NLP 技术时研究过的一些问题。我知道有已经有很多很棒的文章也讨论过相同的问题(比如 Sarkar 撰写的一系列文章:https://towardsdatascience.com/a-practitioners-guide-to-natural-language-processing-part-i-processing-understanding-text-9f4abfd13e72),但对于笔者来说,将这些问题写下来对于自己梳理自己所掌握的知识很有帮助。

本文涉及的内容

为简洁起见,本文主要还是偏理论一些。今后我会编写更多的实用性的文章。现在,我将讨论以下几个问题:

文本预处理

一个典型的文本预处理工作流程由以下 4 个步骤组成:

在大多数应用中,并不需要执行以上所有的预处理步骤。是否需要进行命名实体识别取决于应用的具体业务需求,而词性标注工作则通常由现代工具自动完成,从而改进归一化和分词步骤的某些部分。

句子分割

预处理工作流程的第一步是将文本分割成多个句子。在许多语言环境下(例如英语),标点符号(特别是句号、感叹号和问号)可以被用来表明句子的结束。然而,句号字符也可以被用在缩写中(如 Ms. 或 U.K.),此时句号字符则并不表示句子结束了。在这种情况下,我们会使用缩写表来避免对句子边界的误分类。当文本包含特定领域的术语时,必须创建一个额外的缩写词典,从而避免产生不自然的词(token)。

分词和归一化


入门 NLP 项目前,你必须掌握哪些理论知识?

分词时的极端情况

「分词」指的是将文本划分成单词和标点(即「词」(token))。与在句子分割中的情况一样,此时对标点符号的处理仍是一个具有挑战性的问题。例如,U.K. 应该被视为一个词,同时「don't」不应该被分成两个词:「do」和「not」。

词干提取(stemming)和词形还原(lemmatization)是文本归一化过程的重要组成部分。归一化由词干提取和词形还原组成。在词干提取过程中,通过删除后缀(如 -ed 和 -ing)来识别单词的词干。由此得到的词干并不一定是一个单词。类似地,词形还原包括删除前缀和后缀的过程,它与词干提取的重要区别在于它的结果是自然的语言。这里的结果被称为词元(lemma)。词干提取和词形还原的例子如下表所示:

入门 NLP 项目前,你必须掌握哪些理论知识?

词干提取和词形还原的差异

这两种技术都通过讲将单词转化为其基本形式来降低文本中的噪声。对于大多数应用来说(如文本分类或文档聚类),保留单词的意义是非常重要的,因此最好使用词形还原而不是词干提取。例如,「meeting」(名词,会议)和「meeting」(动名词,会见)通过词干提取都会得到「meet」,因此并没有准确地保留原本的意思,它们各自的词元分别为「meeting」和「meet」。

其它的归一化技术还包括:缩写扩展、删除数字和标点符号、纠正典型的语法错误等。这些操作大多都可以通过使用正则表达式来完成。

词性标注

这一步是基于单词的上下文和定义,将词(token)分类为不同的词性(POS)类别,也被称为单词分类或词法分类。POS 类别包括名词、动词、介词、副词等。英语环境下的词法分类示例如下图表所示。词性标注提升了词形还原的效果,其对于命名实体识别是必要的。 

入门 NLP 项目前,你必须掌握哪些理论知识?

常用的 POS 类的示例

通常有三种类型的词性标注器: 基于规则的、基于统计的和基于深度学习的词性标注器。基于规则的词性标注器依赖于显式的规则,例如一篇文章的标题后面必须紧跟一个名词,从而对这个词(token)进行标注。基于统计的词性标注器使用概率模型来标注单个单词或单词序列。基于规则的词性标注器非常精确但是却与语言高度相关。

基于统计的标注器更易于创建,并且是与语言无关的,而代价则是牺牲了一定的精确度。如今,尽管工业界开始逐渐转而寻求深度学习解决方案(在预先标注的句子集上训练模型),但基于规则的模型和统计模型仍然会被混合使用。基于混合方法和深度学习的方法提升了上下文敏感的词性标注任务的性能。

命名实体识别

在识别命名实体之前,必须对词(token)进行组块分析(chunk)。组块分析意味着对一组词进行分割和标记。最常用的组块是名词短语组块,它由限定词、形容词、以及一个名词组成(例如,「a happy unicorn」(一只快乐的独角兽))。句子「He found a happy unicorn」(他发现了一只快乐的独角兽)由两个组块「他」和「一只快乐的独角兽」组成。

命名实体是指示特定物体(例如,人、祖师、地点、日期、地缘政治实体)的名词短语。命名实体识别(NER)的目标是识别文本中提到的命名实体。

入门 NLP 项目前,你必须掌握哪些理论知识?

带有 NER 标签的句子

机器学习

正如 Brink 等人定义的那样,机器学习(ML)就是利用历史数据中的模式来对新的数据做出决策[1],或者就像谷歌首席决策科学家 Cassie Kozyrkov 所述:「机器学习就是一个对事物的标记器,根据你对某件事物的描述,告诉你它应该被赋予什么标签」(相关阅读:https://hackernoon.com/the-simplest-explanation-of-machine-learning-youll-ever-read-bebc0700047c)。当你所面临的问题过于复杂,而无法通过编程解决时(比如区分出图像中不同种类的猫),或者解决方案需要适应时间的变化(比如识别手写文本)时,应用机器学习技术是非常有用的。

通常而言,机器学习被分为监督学习和无监督学习。当我们的历史数据包含标签(例如,下图中的「鸭子」和「不是鸭子」)时,我们可以使用监督学习。另一方面,如果数据中没有包含标签,这应该使用非监督学习。非监督机器学习方法旨在总结或压缩数据。

下面我们通过垃圾邮件检测和异常检测的例子来说明这两种学习方法之间的区别。在监督学习中,我们拥有带有「垃圾邮件/非垃圾邮件」标签的训练数据;而在非监督学习中,我们则须要基于(无标签的)电子邮件的训练集检测异常邮件。 

入门 NLP 项目前,你必须掌握哪些理论知识?

监督学习和非监督学习的区别

特征提取

所有的机器学习算法都需要数值型数据作为输入。这意味着文本数据必须被转化为数值型数据。这就是 NLP世界中特征提取步骤的本质。

基于计数的策略

将文本转化为数值向量的最简单的方法就是使用词袋(BoW)方法。词袋方法的的原理是提取出文本中所有特有的单词,并且创建一个文本语料库,称为词汇表。通过使用该词汇表,可以将每个句子表示为一个由 0 和 1 组成的向量,向量元素的取决于词汇表中的某个词是否出现在该句子中。下图显示了使用 BoW 方法在五个归一化处理后的句子上创建的矩阵的一个示例。 

入门 NLP 项目前,你必须掌握哪些理论知识?

例句

入门 NLP 项目前,你必须掌握哪些理论知识?

根据上面的句子创建的 BoW 特征矩阵

为了给词汇表添加更多的上下文信息,可以将词(token)组合在一起。这种方法被称为 N 元(N-gram)方法。一个 N-gram 是由 N 个词(token)组成的序列。例如,一个 2-gram(双字母组,bigram)是由两个单词组成的序列,而三字母组(trigram)则是由三个单词组成的序列。

一旦选定了单词表,无论是对于 1-gram、2-gram 还是 3-gram,都需要计算出 gram 出现的次数。我们可以使用 BoW 方法。这种方法的缺点是,会使流行词(出现频率高的单词)变得过于重要。因此,这里最受欢迎的方法被称为「词频-逆文档频率法」(TFIDF)。

入门 NLP 项目前,你必须掌握哪些理论知识?

对 TF-IDF 的抽象解释

TF-IDF 由词频(TF)和逆文档频率(IDF)构成,前者表示单词相对于句子长度的重要性,而后者则表示单词相对于文档总行数出现的行数。直观地说,如果一个单词经常出现在目标文档中,但并不经常出现在所有文档的集合中,那么它的 TF-IDF 值就会较高。下图显示了根据之前见过的例句创建的 TF-IDF 矩阵的示例。请注意,单词「fox」(狐狸)的得分与出现更为频繁的单词「rabbit」的得分有何不同。

入门 NLP 项目前,你必须掌握哪些理论知识?

根据例句创建的 TF-IDF 特征矩阵

高级策略

虽然基于技术的方法可以被用来表征单词序列(n-gram),但它们并不能捕获单词的语义上下文,而这正是许多 NLP 应用的核心。我们通过词嵌入技术来解决这个问题。我们可以使用词嵌入将单词表转化为向量,这样一来具有相似上下文的单词的距离就相近。

「Word2Vec」(相关论文:https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)是谷歌开发的一个框架。它使用浅层神经网络训练词嵌入模型。

「Word2Vec」算法有两种类型:(1)Skip-gram,被用来预测给定单词的上下文。(2)连续词袋(CBOW)模型,被用来在给定上下文的情况下,预测下一个单词。

全局向量方法(GloVe,https://www.aclweb.org/anthology/D14-1162)使用共现统计量来创建向量空间。该方法是对 Word2Vec 的扩展,期望得到更好的词嵌入。下图显示了根据例句构建的 GloVe 词嵌入的示例,以及这些词嵌入的图形化表示。正如我们设想的那样,类似的概念距离相近。

入门 NLP 项目前,你必须掌握哪些理论知识?

使用 GloVe 嵌入创建的特征矩阵

入门 NLP 项目前,你必须掌握哪些理论知识?

投影到一个二维空间的词向量

此外,Facebook 也开发了一个名为「FastText」的 Word2Vec 的版本。FastText 是一个深度学习框架,它在创建向量空间时考虑到了单个的字符。

监督学习

根据标签(也被称为目标)的格式不同,可以将监督学习分为两类。如果目标是一个类别的离散值(猫/狗),那么它就是一个分类问题;而如果目标是连续数值(房价),那么它就是一个回归问题。在处理文本时,我们经常会遇到分类问题。

入门 NLP 项目前,你必须掌握哪些理论知识?

典型的监督学习工作流程

上图显示了一个文本分类系统的典型工作流程。我们首先将数据划分为一个训练集和一个测试集。我们需要对训练数据和测试数据进行预处理和归一化,接着就可以提取特征了。本文前面的章节已经介绍了大多数流行的特征提取技术。当文本数据被转化为数值形式后,我们就可以对其应用机器学习算法了。

我们将这个过程称为训练模型——模型从特征中学习模式从而预测标签。首先使用通过一个被称为超参数调优的过程得到的模型参数,可以对模型进行优化,从而得到更好的性能。然后使用模型之前没有遇到过的测试数据对生成的模型进行评价。模型的性能是通过各种度量来衡量的,例如准确率、精度、召回率、F1 值,等等。本质上,这些得分是为了将真实标签和预测标签进行比较而建立的。

用于文本分类的典型算法包括:

分类算法列表中的最后两项是集成方法,它们使用许多预测算法来实现更好的泛化。集成方法的效果通常比单个模型更平均,并且集成方法在较大的数据集上效果更好。然而,正如 Sarkar 在[6]中所证明的,集成方法并不一定能更好地处理文本数据。

评价指标

入门 NLP 项目前,你必须掌握哪些理论知识?

混淆矩阵以及从中得出的各种度量方法

混淆矩阵是评估机器学习模型最简单、最直观的工具之一。它给出了实际值与预测值之间的关系。尽管混淆矩阵本身就是一个有力的工具,但是与其相关的术语又被用作了其它度量方法的基础。关于混淆矩阵的重要术语如下所示:

根据混淆矩阵导出的度量标准如下:

只有当标签包含大致相同数量的数据点时,准确率才是一个有用的度量指标。以上四个度量指标的取值范围都是 0-1,其中 1 位最佳得分,而 0 位最差的得分。

非监督学习

当待分析的数据集没有标签的时候,可以使用非监督机器学习技术(如聚类)。聚类是非监督学习的一个分支,其目的是将相似的对象组合到一起。

入门 NLP 项目前,你必须掌握哪些理论知识?

聚类的示例

常用的聚类算法分为以下几类:

文本摘要

文本摘要任务可以被划分为两个部分:主题建模和自动文本摘要。其中,自动文本摘要是一类使用机器学习算法创建文档摘要或一组文档的过程。这些算法在处理大量文档和长文档时效果最佳。

另一方面,主题建模侧重于从文档集合中提取出主题。主题模型通常被称为概率统计模型,因为他们使用到了统计技术(例如,奇异值分解(SVD)),从文本中发现潜在的语义结构。SVD 依赖于线性代数中的矩阵分解技术,能将特征矩阵分解成更小的部分。诸如潜在语义索引(LSI)、潜在狄利克雷分布(LDA)、以及非负矩阵分解(NNMF)等方法利用线性代数中的技术将文档内容划分为不同的主题,其本质上是单词聚类,如下图所示。当文本多样性高时,主题建模算法往往会得到更好的结果。

入门 NLP 项目前,你必须掌握哪些理论知识?

主题建模原理示意图

结语

在本文中,我针对读者开始从事与自然语言处理和机器学习相关的项目时可能遇到的重要问题进行了概述。本文只是触及了这个领域的皮毛。我甚至没有涉及到使用迁移学习进行语言建模这样激动人心的最新进展,读者可以从 Sebastian Ruder 的博文(http://ruder.io/nlp-imagenet/)中阅读到相关信息。

在我看来,现在正是在工业界实践应用 NLP 技术的大好时机。正如 Yoav Goldberg 在最近的一次会议上所说的,大部分工业界同仁还停留在使用正则表达式解决问题的阶段(相关阅读:https://medium.com/@arnelapnin/highlights-from-spacy-irl-802229333785)。通过理解我在本文中介绍的理论,并将其应用到现实生活问题中,你可以真正造福于大众。 雷锋网雷锋网雷锋网

入门 NLP 项目前,你必须掌握哪些理论知识?

Yoav Foldberg 在 spaCy IRL 会议上报告应用 NLP 的最新进展

参考文献

[1] H. Brink, J. W. Richards, and M. Fetherolf, Real-world Machine Learning (2017), Manning Publications

[2] S. Shalev-Shwartz, S. Ben-David, Understanding Machine Learning: From Theory to Algorithms (2014), Cambridge University Press

[3] T. Mikolov, I. Sutskever, K. Chen, G. S Corrado, and J. Dean. Distributed Representations of Words and Phrases and their Compositionality (2013), Advances in Neural Information Processing Systems 26

[4] J. Pennington, R. Socher, and C. D. Manning, GloVe: Global Vectors for Word Representation (2014), In EMNLP.

[5] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov. Enriching word vectors with subword information (2016), arXiv preprint  

[6] D. Sarkar. Text Analytics with Python: A Practitioner’s Guide to Natural Language Processing (2019), Apress

via https://towardsdatascience.com/the-theory-you-need-to-know-before-you-start-an-nlp-project-1890f5bbb793

长按图片保存图片,分享给好友或朋友圈

入门 NLP 项目前,你必须掌握哪些理论知识?

扫码查看文章

正在生成分享图...

取消
相关文章