资讯 新鲜
此为临时链接,仅用于文章预览,将在时失效

国王-男人+女人=女王:这是什么等式?

作者:思睿
2015/09/21 15:28

国王-男人+女人=女王:这是什么等式?

计算机语言学急剧改变了研究人员学习和理解语言的方式。利用数学运算处理大量词语的方式,也让我们开始以不同的角度思考单词与词语之间的关系,而这有望能让机器理解人类的语言。

数字运算方式正好说明了一个词语与另一个的关系有多么近,这也是关于它们如何被使用的重要因素。Olympics(奥运会)这个词可能会显得与 running(跑)、jumping(跳) 和 throwing(扔) 之间有更多联系,而与 electron(电子) 和 stegosaurus(剑龙) 就没那么紧密了。这组词语的关系可以被认为是一个多维向量,它描述了 Olympics 是如何在语言内使用,它本身可以被认为是一个向量空间。  

国王 - 男人+女人=女王

这种新方法让语言像拥有精确数学特性的向量空间一样被对待。现在,语言学研究已经转变成为了研究数学向量空间的问题。如今,澳大利亚墨尔本大学的 Timothy Baldwin 和其合作伙伴开始探索向量空间的一个数学特性:在同一空间中加减向量,从而产生另一个向量。

他们讨论的问题是:向量之间的拼合有什么意义?在探索这个问题的过程中,他们发现向量之间的差异,是学习语言和了解词语之间关系上的强大工具。

了解如何思考这些词语,并让它们像向量一样进行加减法,最简单的方法是举例子。比如下面两个:

Timothy Baldwin 则探讨了这种方法有多可靠和有效。根据词语研究的语料库数据,他们比较了向量关系会如何改变。例如,他们会在维基百科、Google新闻、路透社新闻的词语语料库中,进行同样的向量关系的研究。

为了找到答案,他们寻找了许多与分类词语的关系相关联的向量,包括实体及其部分之间的关系,如飞机和座舱;以及一个动作与所涉及对象之间的关系,例如狩猎和鹿;名词和集体名词,例如蚂蚁和军队。研究还包括了一系列的语法联系——名词和它的复数,如 dog 和 dogs;动词和它的过去式,如 know 和 knew;动词和第三人称复数,如 accept 和 accepts。

国王-男人+女人=女王:这是什么等式?

让机器理解语言

结果十分有趣。Baldwin 表示,在这些关系中抓取的全部向量,总体上在每个语料库的向量空间中,都形成了紧密集群。

但也有一些有趣的异常值,在词语有一个以上的含义时,就会在向量空间中产生有歧义的描述。在第三人称复数集群的例子中,包括 study 和 studies,run 和 runs,increase 和 increases,所有这些单词即可以作为名词,也可以作为动词,因此也会曲解这些向量。

这是一项有趣的工作,不过除了语言学研究,还有什么现实意义呢?一个显而易见的答案是:帮助机器理解人类的语言。另外,帮助机器进行更好的语言翻译。你可以已经想到了两个例子:微软Skype实时翻译,以及Google翻译。

值得一提的是,在这一领域的开拓者和驱动力之一,就是 Google 和它的机器翻译团队。Google 发现,出现在英语中的矢量关系,通常也适用于西班牙语、德语、越南语,以及其他所有的语言。

当然,由于语言拥有独特本质,也有许多例外的情况,也正是这些特殊性导致了机器翻译算法的问题。因此,寻找能够找出词语歧义性的方式,有望提供一种有效解决这些问题的方法。

via technologyreview

长按图片保存图片,分享给好友或朋友圈

国王-男人+女人=女王:这是什么等式?

扫码查看文章

正在生成分享图...

取消
相关文章