被讽刺了但却没意识到？这个神经网络来帮你

嘲笑讽刺神经网络 CUE-CNN

作者：亚萌

2016/08/05 19:22

在网络上，用文字交流，有一个危险之处，那就是当别人在嘲讽你的时候，你会意识不到，反之有时，你明明没有嘲讽的意思却被对方误会。比如，有时当某人跟评论说“真棒”的时候，你不知道他真的觉得这个东西好呢，还是在反讽。

被讽刺了但却没意识到？这个神经网络来帮你

最近，来自西班牙里斯本大学的研究人员引用了新型的深度神经网络CUE-CNN，能自动识别社交媒体上具有嘲讽意义的言论。这不仅会避免日常文字对话时的小尴尬，而且对于人工智能领域的自然语言处理来说，知道某一句话是否是讽刺，这一点尤其显得重要。

但是这不是一个简单的问题。通常来说，计算机要理解一句话是否具有讽刺意思，需要结合上下文的语境，从文本本身寻找信息，但是会遇到语境不足的问题。毕竟，包括标点符号在内都一模一样的的一句话，由不同的人嘴里说出来意思会完全不同。比如，同样一句“使美国再度伟大”（Make America great again，这是川普的竞选口号），川普的支持者和反对者分别在Twitter上写下这句话，含义会完全不一样。

被讽刺了但却没意识到？这个神经网络来帮你

里斯本大学的研究员Silvio Amir说道：“要理解讽刺意味，单靠文本信息是不够的。”所以，还有一个关键因素，就是理解发表这个言论的用户本身。

该团队的论文中描述了一个方法，就是让神经网络找到“用户嵌入”（User Embeddings）。要理解这个词，我们就要对比自然语言处理中比较常见的”单词嵌入“（Word Embeddings ）这个术语。

单词之间会有或近或远的联系。例如，“男人”与”国王”这个两个词经常出现在一起，联系比较紧密，“女人”与“王后”也有类似的关系。而这种单词之间的关系就被称为"单词嵌入"，而且研究人员往往用数学上的向量空间图来表示这种关系，在向量空间中，具有相似意义的单词会占据同一块位置，比较直观。

所以这里的“用户嵌入”就是指用户之间的关系。几个用户之间，可能爱好相似，教育经历相似，那么这一波用户之间的关系比较紧密，在空间向量里，就会聚集在同一块位置。

比如，论文里用政治倾向来做例子。如下图，每个圆点代表了Twitter上的用户：蓝色用户关注了至少一下民主党政客：奥巴马、希拉里和伯尼· 桑德斯；红色用户关注了以下至少一位共和党政客：马可· 卢比奥、泰德·克鲁兹、特朗普。同时关注两党的用户被排除在外。从图中发现，拥有类似政治倾向的用户会聚集在向量空间的同一位置。

被讽刺了但却没意识到？这个神经网络来帮你

如果某一个蓝色用户发表了支持川普的言论，而这与同他处在同一位置的其他用户不一样，那么系统会判定，这个言论很可能具有讽刺意味。

使用类似的方法，在理想情况下，可以找到界限比较明确的一个一个团体。将这个神经网络与上下文的语境的线索结合起来，得出来的实验结果显示，准确率有87%，对比其他系统的准确率是85%。虽然准确度并没有大幅度提高，但是考虑到这个系统要求的人工配置和监测比以往的要少很多，这会让其在社交媒体网络的上的应用变得更加容易。

Via TC