雷锋网 AI 科技评论消息,清华大学副教授、Arnetminer 创始人唐杰博士在微博上更新了清华和微软在 KDD 上公布的最新成果——Open Academic Graph。
「我们和微软在 KDD 上发布了一个非常大的学术数据,包含有微软 1.6 亿论文和 AMiner 里面抽取出来 1.55 亿论文,同时还给出了这两个数据之间的链接关系(可以用于做数据集成研究),欢迎大家下载,这也是清华和微软等单位联合成立的开发学术社区 Open Academic Society 。」
据雷锋网 AI 科技评论了解,该数据集仅供科研用,包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表的 6463 万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面,即链接关系、MAG 论文集及 AMiner 论文集。
官网介绍:https://www.openacademic.ai/news/
此外,在 aminer 的官网上也同步了 3 个 AMiner 论文集和 9 个 MAG 论文集的打包下载渠道:
https://aminer.org/open-academic-graph
在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:
{
"mid": "xxxx",
"aid": "yyyy"
}
其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。
对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:
示例如下:
在使用的时候,研究者可以通过以下两步进行操作:
1. 采用 Microsoft Graph Search API 查询每个 AMiner 的论文标题,并且筛选出对应的链接论文。
2. 如果两篇论文满足以下条件,则会被链接起来:
1)标题相似;2)作者数目相同;3)有类似的作者名字及 4)相同的出版年份。
在测试过程中,研究者以 24012(TODO)链接论文对在数据集上进行测试,能够正确匹配的论文对有 23859 份,准确度达到 99.36%。
在 Open Academic Society 官网上,研究者又提供了一份准确率的最新数据:他们将 4100 个研究对进行准确性测试,发现有 4029 个成功匹配,准确率达到了 98.27%。
该数据集能够在 cloud API 上免费获得。如唐杰博士所言,这个数据集将成为 Open Academic Society 学术社区的重要组成部分。Open Academic Society 旨在建立一个共享、开源且不断扩展的知识图表体系,并构建以教育为核心的实体关系。以微软研究院旗下的 Microsoft Academic 和清华大学的 AMinergraph 领衔,知识图表的不断发展也得益于社区成员的持续贡献。
雷锋网 AI 科技评论了解到,Open Academic Society 目前的成员包括 22 位老师/研究机构,也有不少华人,包括亚利桑那州立大学刘欢教授、澳大利亚国立大学 Lexing Xie博士、中科院程学旗博士、清华大学唐杰博士、UCLA 的 Yizhou Sun 博士、伊利诺伊大学厄巴纳-香槟分校 的 Chengxiang Zhai 等老师。
为了形成更大的计算机社区,Open Academic Society 将组织 workshops、挑战赛及数据分享活动。截至目前已经在 KDD 2017、WWW 2017、WSDM 2017 等会议上开展 workshops 及分享活动,并在 KDD CUP 2016、DataScienceGame 2016 和 Open Academic Data Competition 2017 上举办挑战赛,详细清单可查看:https://www.openacademic.ai/events/