面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的

作者：skura

2019/05/06 18:24

雷锋网 AI 科技评论按，在各种社交平台上，经常会出现一些违规的内容，如恐怖视频、侮辱性的言语等。如何将这些内容识别出来并进行处理对平台健康良好的运作具有重大意义。近日，facebook 人工智能研究院发表了一篇博文，探讨了这个问题。雷锋网 AI 科技评论编译整理如下文。

如今，我们在 Facebook 的各种应用程序中使用人工智能技术——其中最重要的一点是帮助人们安全地使用我们的平台。为了使所有这些系统更有效，我们需要继续改进我们的人工智能，特别是在两个方面：内容理解和有效地使用标签较少的训练数据。

我们在自然语言处理（NLP）和计算机视觉（CV）方面的最新进展表明了在内容理解方面的工作是如何产生效益的。在 NLP 中，我们开发了一个共享的多语言嵌入空间，它可以作为一种语言来帮助处理有害内容，即使是用在低资源语言中也是有效的。在 CV 方面，我们在我们行业领先的研究基础上，去识别图像中更多部分的内容，并使用标签来理解视频，从而实现记录设置的准确性。

随着我们内容理解能力的不断提高，我们也在自我监督的新领域取得了进展。这项技术将加速预训练系统的学习，它可以为下一代更快、更灵活的工具奠定基础。

我们将在这里重点介绍我们如何提高内容理解系统的准确性和效率，并找到新的方法，在无监督学习中做更多的事情。

使用多语种句子嵌入处理违规内容

为了在人们发布违反我们政策的内容时将它们检测出来，我们的系统需要理解语言。具体来说，我们的系统使用机器学习（ML）扫描一个给定的句子并回答一系列问题，例如「它是违规的吗？」或者「它是在威胁某人吗？」。使用这些问题的答案以及当时的上下文和其他的背景信息，我们可以决定是否采取行动，例如给一个人类的审稿人做标记。

为了让我们的 ML 系统回答这些问题，我们需要用给定语言的数千个例子来训练它们。然而，世界上大约有 6500 种语言，其中包括一些目前缺乏大型训练数据集的语言，要找到足够的训练样本来支撑我们支持的所有语言的内容理解是一个挑战。

面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的

通过在共享的嵌入空间中用多种语言映射类似的句子，我们可以在不翻译每个句子的情况下，更好地理解相关内容（包括违反规定的内容）。

为了帮助弥补训练数据的不足，我们正在改进我们最近开源的工具包「LASER」，它可以通过训练一个模型来理解各种语言。在以前，当我们需要为每种语言使用不同的模型时，LASER 的表示空间允许我们用一种语言进行训练，而不需要特定语言的训练数据。在训练之后，我们可以将模型应用于一系列语言，也不需要翻译它们，这称为「零样本迁移学习」。LASER 也让我们在语言未知的表示空间内，将那些彼此更接近的句子进行映射，来识别意思相似的句子。

对于希望增加系统能够理解的语言数量的研究人员来说，像这样的跨语言技术提供了一种更具可扩展性的替代方法去尝试收集和注释每种语言中的数据。这种方法还允许我们为机器翻译挖掘并行训练数据，特别是对于低资源语言（也就是训练示例较少的语言）非常有用。跨语言识别相似的句子有助于在多种语言中同时捕获相似的违规行为。为了生成每个句子层面的嵌入，我们首先使用字节对编码表示给定句子的单词，然后使用五层双向 LSTM（长短期内存）模型，紧接着使用 max pooling（因为句子包含的单词数目是不定的）。

通过大规模的训练这个系统——包含 93 种语言，这些语言隶属于 30 多个语言家族，用 22 种不同的脚本编写而成，我们能够获得未知语言的句子嵌入，并且其支持自动检测违反政策内容的能力对于低资源语言尤其重要。

这种方法和我们的跨语言预训练工作一起，将提高我们在不需要额外的语言标记的训练数据的情况下，处理多种语言的仇恨言论、欺凌和其他违反规定行为的能力。这两种技术都将支持我们现有的多语言单词嵌入的使用，它将不同语言的相似单词映射到同一空间（而不是 LASER 的句子级映射）。这些嵌入已经部署到产品中，用于广泛的跨语言理解任务，包括识别内容冲突等。

提高对照片和视频的理解水平

人们在我们的平台上共享数十亿张照片，理解这些照片中的内容对于保护人们的隐私安全极为重要。即使对像素的直接分析可能足以让我们的系统识别图片中的单个对象，我们也会进一步推进行业领先的 CV 技术的研究，并教会系统了解这些对象之间的关系在什么情况下代表着违反政策。

我们的系统擅长识别照片前景中的物品，如狗或球。但直到最近，他们一直在努力理解背景更大、包含更少的像素集合的照片。使用一种新的对象识别方法，即全景特征金字塔网络（panoptic feature pyramid network，即 Panoptic FPN），我们可以在一个统一的神经结构上同时执行实例分割任务（前台）和语义分割任务（后台）。

面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的

多年来，我们的 CV 系统已经逐渐识别出更多的图像组件，现在可以用一个单一的网络对前景和背景中的物体进行检测。这样可以更好地理解照片的整体背景，更高效的进行图像识别。

我们的结果表明，与只进行实例和语义分割的网络相比，全景 FPN 可以将执行实例和语义分割所需的总体计算量几乎减半。在实践中，这使系统对图像的故事背景有了更好的理解，而这一点在判断它是否违反我们的政策时很重要。但这项工作也会影响到其他应用程序，例如，它可能会潜在地改进我们用来向视力受损者描述图像的自动 alt 文本。

在视频中发现违反政策的行为比在照片中发现违反政策的行为更难。理解视频意味着理解构成给定帧序列的大量图像以及该序列中的行为表示的动机，同时还要处理非视觉的输入，如音频等。

由于这些困难，视频理解还处于起步阶段。无论是在准确性或是效率方面，我们一直在推进视频理解领域最先进的技术的研究，其中一部分工作是专注于我们系统的注意力和在最相关的数据集上进行训练。例如，通过将我们的三维卷积分解为单独的二维和一维卷积（分别与给定视频序列中的空间和时间相关），我们减少了可训练参数的数量。或者，我们可以保持相同数量的参数并提高精度。使用这个框架，我们可以在准确性和效率之间找到平衡。

面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的

我们的显著性抽样方法不是通过时空卷积神经网络传递给定视频中的每一帧，而是分离出包含显著动作的剪辑，以便进一步处理。

为了了解视频中发生了什么，我们将其分成短片段（每个片段由少量连续帧组成），并通过我们最新的时空模型发送一组连续帧。然后我们可以聚合这些信息，并得到整个视频的预测。

然而，在许多视频中，只有少数片段里面的信息对特定任务有意义，例如检测欺凌内容时，其余片段要么是多余的，要么是不相关的。因此，为了进一步提高我们在视频中发现可能违反政策事件的速度和效率，我们构建了一个显著性采样器。这个系统经过训练，专注于包含特定行为的视频部分，然后进一步更详细地处理这些框架集。这种更为集中的分析和训练使得视频的理解更快、更准确。

使用 hashtags 记录设置精度以理解视频

我们还开发了一种不同的方法来识别行为（包括表示内容违规的行为），它是一种目前最前沿的技术。
这项技术直接建立在我们去年在 F8 上宣布的工作的基础上，该工作的训练网络使用数十亿张带有标签的公共图像，并且能够在图像识别任务中击败最先进的技术。在我们的新方法中，带标签的视频扮演着弱监督数据的角色，这意味着训练示例的标签已经被人们应用，但没有全监督的精度。

与专门用于训练人工智能模型的标签相比，结果的注释噪音大且不精确。但是，这种方法提供的标记示例的数量表明，我们不仅可以通过在弱监督的训练数据上进行训练，也可以在前所未有的巨大数量的数据集上进行训练来显著提高视频理解能力。

在这种情况下，我们训练的最大的数据集包括超过 6500 万个带有标签的公共 Instagram 视频。而相比之下，当前的动作分类数据集只包含几十万个视频。使用这些视频带来的技术挑战和我们识别数以十亿记的图像识别工作类似，例如必须跨硬件平台部署训练，而且还会遇到新的障碍，包括处理的标签通常只适用于视频的一小部分这一事实。例如，一个带有「婚礼和舞蹈」标签的视频可能只会在一段更长的视频中展示一对新婚夫妇跳舞的几秒钟。

尽管存在这种时间噪声问题，但我们发现内容的多样性和示例的绝对规模抵消了标签中的噪声。通过使用显著性抽样器，我们的视频识别模型在三个主要的视频分类基准上达到了世界领先水平的精度。这包括将视频分为 400 种不同的人类行为类别中的一种时，在 Kinetics 数据集上的精确度达到了 82.8%。这比先前最高 77.7% 的准确度提高了 5.1%，相对来说，误差减少了 25% 以上。我们已经将这种方法应用到生产系统中，将欺凌行为识别率提高了近 85%。

通过将音频整合到这个模型中，我们能够获得更好的效果。我们的实验证明，与采用相同架构和训练流程的视觉模型相比，我们联合了音频和视频的模型在音视频事件检测基准上达到了世界领先水平，并在检测亵渎和成人内容的准确性上提高了 20%。

用自我监督进行内容理解的未来

语言、图像和视频理解方面的这些技术上的进步是我们不断努力改进政策执行能力的一部分。但是，当我们着眼于保持平台安全的长期任务时，创建可以使用大量未标记数据进行训练的系统将变得越来越重要。
我们现在的大多数系统都依赖监督训练。这给训练带来了一系列的挑战，例如在某些情况下我们会缺乏训练数据，在某些情况下我们需要收集和标记示例以从头构建新分类器以进行时长时间的训练。由于新的内容违规案例发展迅速，选举等事件已成为有害内容的聚集处，我们有责任加快系统的开发，以提高我们的响应能力。

一个潜在的解决办法是 Facebook 首席人工智能科学家 Yann LeCun 多年来一直在讨论的一种方法：自我监督。相比于仅仅依靠人类为了训练而标记的数据——甚至是弱监督的数据，例如带有公共标签的图像和视频，自我监控让我们可以利用完全未标记的数据。这种方法本质上是通用的，使自我监控系统能够使用少量标记的数据来处理未知的任务，并有可能使我们更接近实现真正人工智能的目标。

实际上，这曾经只是我们人工智能团队的一项策略性研究，而最近它已经转变为为团队提供强大的内部结果的系统，一些自我监督的语言理解模型不断击败使用传统的、有监督的方法进行训练的系统。具体来说，我们已经开发了一些模型，可以通过在给定信号的一部分上进行训练来预测给定信号的另一部分。

例如，我们训练了这些自我监督系统中的一个，通过在句子中隐藏单词来更好地理解语言，即使模型以前从未见过原来的句子。如果有一个短语，比如「A conversation about ________ and human connection」，人们可以很容易地猜出几个词来填补这个空白。但这项任务对人工智能来说更具挑战性。这是一个有用且可扩展的训练任务的基础，和谷歌引入的 BERT 模型所解决的任务类似。我们可以依次删掉句子中的每个单词，然后在 10 亿个单词的数据集上重复这个过程，且这些单词不需要进行标记。

面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的

通过分别分析隐藏单词左右两个句子的上下文，我们的双向变换模型能够在不依赖标记数据的情况下预测漏掉的单词。

为了预测每个隐藏的单词，我们使用双向变换网络，通过计算句子的前向和后向状态——即隐藏单词右侧和左侧的单词——来模拟句子的其余部分，然后结合这些表示来确定隐藏单词。一旦系统以这种未标记的方式进行了训练，我们就可以使用标记的数据为特定任务（如识别欺凌性言语）对其进行微调。在内部测试中，这种自我监督和监督训练的结合使用使得我们可以用比有监督少 10 倍的数据进行训练，却能获得与有监督模型相近的精度，或者在使用相同数量的训练数据的情况下减少 20% 的错误。

我们还利用自我监督训练来提高语音识别能力。我们创建了一个音频剪辑的几个版本，其中某些版本的一部分已被更改，模型必须确定哪一个版本是正确的。在这里，只使用原始音频作为输入，没有转录或其他标签。

对于这种方法，我们使用了两个叠加在一起的网络：一个编码器网络，它将原始音频映射到时间频率较低的特征表示；一个上下文网络，它预测正确的音频。为了使训练任务更有效，我们要求上下文网络对未来进行更加深入的预测，从而使预测问题变得越来越困难。

面对内容理解的准确性和效率问题，facebook是这样利用自我监督技术的

在使用两个卷积神经网络对原始的、未标记的音频数据预先生成模型后，系统进行了优化，以解决越来越困难的任务：在不同的时间点预测音频，其中，箭头指示对未来的预测。

一旦这个经过预训练的自我监督模型对语音有了很强的理解，我们就使用少量的监督数据——80 小时的转录音频来训练最终的语音识别系统。我们的系统使用的标签数据比之前最好的系统 Deep Speech 2 少 150 倍，同时将错误率降低了 9%。这项工作使我们能够快速地将语音识别能力扩展到更多的语言，而不需要在每种语言中都有大量的转录语音。

这两种方法都侧重于语音和语言理解，但它们也代表了我们如何探索甚至结合不同程度的数据监督的更基础的转变。这包括利用大量未标记的训练数据，以及使用少量标记的数据来释放自我监督系统的巨大潜力。在所有与人工智能相关的任务中，越来越强调自我监督，但没有一项任务比提高我们产品的安全性更重要。

Via：https://ai.facebook.com/blog/advances-in-content-understanding-self-supervision-to-protect-people/

雷锋网雷锋网