资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约 7 亿实体数据、20 亿关系

作者:丛末
2019/03/01 10:03

雷锋网 AI 科技评论按:继 2017 年 8 月份首度联合发布开放学术图谱(Open Academic Graph, OAG),近日,清华大学和微软研究院再度携手将 OAG 更新为 2.0 版本并进行了发布。

OAG 2.0 版本下载网址:https://www.openacademic.ai/oag/

OAG 2.0 版本 VS 1.0 版本

于 2017 年开放的 OAG 1.0 版本,通过整合清华 AMiner 学术图谱的 154,771,162 篇学术论文的元数据和微软学术图谱(Microsoft Academic Graph, MAG)的 166,192,182 亿篇论文,生成了两个学术图谱之间近 64,639,608 对链接(匹配)关系。

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约  7 亿实体数据、20 亿关系

OAG 1.0 版本

而相较 OAG 的 1.0 版本,2.0 版本的更新在于它在论文相关数据的基础上,增加了作者以及出版地点相关的数据,也就是说新发布的 2.0 版本包括了论文、作者、出版地点 3 类实体以及相应的匹配关系。

据悉,截止 2019 年 1 月,OAG 2.0版本包括约 7 亿实体数据和约 20 亿实体之间的链接关系,其中包括 AMiner 的 2.8 亿实体数据和 MAG 的 4 亿多实体。OAG v2 的统计数据如下面三张图表所示:

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约  7 亿实体数据、20 亿关系

OAG论文数据统计,图片截止官网

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约  7 亿实体数据、20 亿关系

OAG作者数据统计,图片截止官网

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约  7 亿实体数据、20 亿关系

OAG出版地点数据统计,图片截止官网

由于 MAG 和 AMiner 两个学术图谱都在不断演变,在这三张图表中,OAG 2.0版本采用了 MAG 2018 年 11 月的快照和 AMiner 2018 年 7 月或 2019 年 1 月的快照。另外值得一提的是,在对于作者匹配,学者们只考虑了论文数不少于 5 的作者,并将论文数量较少的作者排除后,其中,AMiner 中有 6,855,193 位作者,MAG 中有 13,173,936 位作者。

面临的挑战

对于该上亿规模 OAG 的构建,无论是 1.0 版本还是最近更新的 2.0 版本,都存在着较大的挑战,其中包括:

解决方案和评估结果

在 OAG 1.0 版本发布之际,雷锋网 AI 科技评论曾对清华大学副教授、Arnetminer 创始人唐杰博士进行了采访。采访中,当问到如何解决数据异构、同名歧义、大规模匹配和计算等问题时,唐杰博士提到他们设计了一个折衷方法:同时考虑精度和效率。据介绍,该算法将算法复杂度降低到 O(nlogn) 到 O(n2) 之间,目前每天能够完成约 2 千万篇论文的匹配,基本完成了合计 3 亿篇论文的自动匹配,并保证了高匹配精度:

具体来说,我们设计了一个针对大规模论文匹配的异步搜索框架。对于 AMiner 中的每篇论文,我们根据题目在MAG中搜索可能匹配的论文,每次搜索的时间在几百毫秒到几秒不等。通过异步搜索的策略,可以做到平均每秒搜索到 20 余篇论文,使得大规模的图谱链接可以达到较快的速度。

另外,为了进一步提高自动集成速度,他们还尝试了两个新的匹配算法 MHash 和 MCNN。

MHash是利用哈希算法,将每篇论文转化为一串二值编码,计算两篇论文之间的汉明距离。由于使用了哈希,该算法速度很快,但同时精度也有所降低,大概能保持 93+% 的匹配准确率。MCNN是基于卷积神经网络的深度学习方法,MCNN 基于单词之间的相似度构造两篇论文的相似矩阵,然后利用卷积神经网络来捕捉文本之间的相似模式。

同时,唐杰博士还提到在实际的操作过程中,该方法也可以缓解数据异构的问题。如:对于作者Quoc Le 和Le, Quoc,它们对应位置上的单词是不相似的,但是在相似矩阵中可以捕捉不对应位置上单词的相似度。最终结果显示,该方法可以达到非常高的匹配准确率(98%+)。另外,这两个论文匹配算法均结合了论文的多个属性,如题目、作者等减轻同名消歧问题。

而对于增加了 2 个实体 OAG 2.0 版本来说,要应对这些挑战更是难上加难,对此,学者们在沿用哈希算法、神经网络深度学习等方法的同时,也尝试结合这些算法以及不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(论文、作者和出版地点)。学者们评估了少部分匹配关系(大约 1,000 个论文/作者/出版地点匹配对),得出了相对应的匹配准确率:其中论文最新的匹配准确率为 99.10%;作者的匹配准确率为 97.41%;出版地址的匹配准确率为 99.26%。

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约  7 亿实体数据、20 亿关系

实体匹配准确率,图片截止官网

OAS 介绍 

OAG 是开放学术组织(Open Academic Society, OAS)的一个重要项目,OAS 是一个由微软,清华,艾伦人工智能研究所,亚利桑那大学,华盛顿大学,加州大学洛杉矶分校和澳大利亚国立大学等全球 20 个机构组成的促进开放学术资料共享、加强学术交流与合作的联盟。OAG 旨在整合全球学术知识图谱,公开共享学术图谱数据,并提供相关学术搜索和数据挖掘服务。

具体来说,OAS 的主要功能包括:

资料参考自:学术头条,清华大学和微软研究院联合发布 “开放学术图谱(OAG)2.0版本”》雷锋网雷锋网

长按图片保存图片,分享给好友或朋友圈

亿级学术图谱 Open Academic Graph 更新至 2.0 版本:包含约 7 亿实体数据、20 亿关系

扫码查看文章

正在生成分享图...

取消
相关文章