雷锋网 AI科技评论按:由中国计算机学会(CCF)主办,福州市人民政府、福州大学承办,福建师范大学、福建工程学院协办的 2017 中国计算机大会(CNCC 2017)于 10.26—10.28 日在福州·海峡国际会展中心举办。
此次会议规模空前,会议主办方邀请了包括丘成桐、沈向洋、李飞飞、丛京生在内的学界、业界知名人物,这次大会除了14场非常值得关注的特邀报告,还有2场大会主题论坛、40余场学术论坛、30余场特色活动以及3个颁奖大会,同期还将有80余家企业举办科技成果展。雷锋网作为独家战略合作媒体对大会内容进行了全程覆盖和报道。
如何建立相对公正合理的学术评价体系,这是在人工智能研究飞速发展的今天被国际学术界高度关注的话题。在 CNCC 2017《大数据驱动下的学术评价》技术论坛上,邀请到CCF 术语工委会主任周明,上海交通大学教授王新兵,中国工程院院士高文,北京大学教授金芝,微软研究院研究员王冠三共聚于此,探讨如何构建大规模异构学术图谱,有效利用图谱为广大学者服务,为学术评价和社会发展服务。此次论坛由清华大学副教授唐杰、微软亚洲研究院李锐博士主持,在panel讨论环节,还邀请到南京大学教授周志华、中科院计算所研究员陈熙霖。
从左至右依次为清华大学副教授唐杰、北京大学教授金芝、南京大学教授周志华、微软研究院研究员王冠三、中科院计算所研究员陈熙霖、上海交通大学教授王新兵、微软亚洲研究院李锐博士
作为第一位嘉宾,周明在论坛中介绍了CCF术语工作委员会,并详述了术语工作委员会中的分工。为了更好的进行术语工作,他们构建了三级火箭,第一级是专家火箭,这一级火箭主要涵盖的是之前一些专家的研究工作。下一级是网络火箭,其中包括新词挖掘,词义挖掘,合并、择优等,第三级是众包火箭,这一级会鼓励网友贡献新词条并审核编纂词条内容,为术语工作委员会做出贡献。
为什么会构造这样的三级火箭?他表示,专家火箭可能存在词条老旧的问题,这时候网络火箭就出现了,可以增加新的词条,例如AlphaGo等,但是又出现了新的问题,比如分类体系不一致,要进行很多调整,另外在增加新词条的时候,必须要通过人工甄别断定分类,还有如何将网络上的简繁体文本对应起来。总体来说,网上找的资源良莠不齐,格式多样,无法用自动化手段去做,必须靠众包去做。
专家火箭和网络火箭目前进展顺利,众包火箭现在发展也不错。他们在做这件事的时候会有激励机制,为大家设计了不同的头衔以表彰其对计算机术语工作做出的贡献。大家可以基于他们的术语工作,做搜索、问答等各种各样的研究。
接下来,王新兵教授介绍了他们在学术地图上的一些研究。他表示,目前的数据量很大,要从数据中挖掘出某位老师或者学生的研究水平,需要进行多方面的考虑。他也提到如何将论文之间的关系联系起来,有什么好的做法,为实现这些目标有哪些核心的考虑。
在论坛中,他为大家详解了他们做的一些图。他们现在做的分析有挖掘论文之间的相关性,挖掘出某个领域比较重要的研究人员,以及谁在那个领域成长比较快,影响力比较大,挖掘某些研究的地理核心区域。在进行核心区域的研究中,也能看到中国在过去二十年间取得的发展。他还举例分析了几个重要会议(SIGMOD和SIGIR、CVPR和ICCV、AES和OOPSLA)之间的交叉和联系。
他们的愿景是希望能通过数据分析来帮助大家,例如根据文章之间的关联性,进行文章推荐,或者进行关联的作者推荐。
随之而来的是高文院士的精彩演讲,他谈到最近讨论比较多的双一流建设,这个排名请了许多知名的专家来评价、讨论、制定规则,然后让机器去计算,但网上有很多对这个排名的调侃和不满。他表示,通过专家制定规则,然后再用提交的数据进行排序的方法,里面有些值得改进的地方。“用大数据做学术评价,很多时候能不能得奖和你的数据的公开程度直接相关,如果在网上几乎查不到你的信息,很大可能得不到高分。”
此外,他也发表了对利用论文数量做学术评价的看法。“学术评价一定要有科学性在里面,纯粹的数论文一定不行,但是论文数有一定的参考性。如果没有其他可参考的,那么数量可能是主要参考的点。”
“以前评价学者的水平靠人的判断,现在数据正在慢慢发挥作用,亚洲学者也多起来了。”他说道,“从社会进步、学科发展、个人发展来说,我们应该逐步关注、整理和维护数据,另外也应该乐于分享数据。此外,不能为了追求数据而数据,要科学地使用、判断数据。”
而现场观众也进行了踊跃的提问,比如什么时候机器可以制定规则,自然基金委在基础研发投入方面的做法,如何看待最近《美国新闻和全球报道》排出的全球高校排名。
下一位演讲嘉宾是金芝教授。本次论坛的主题为大数据驱动下的学术评价,她对学术评价做了介绍,目前存在定性和定量两种评价方法,比较科学的方法是将定量与定性有机的结合起来,给出全面的评价。另外,在做评价时需要考虑多维性,要尊重不同的价值体系。论坛的另一个关键点是大数据,她介绍了亿级学术图谱Open Academic Graph,她表示,构建学术大数据的目的有三,一是集成丰富的学术知识数据,二是数据共享,三是服务共享。这些都非常有价值的,对于学术研究有很大的贡献。
在论坛中,她从窄义和广义上阐述了知识图谱的概念。而知件是计算机可操作性的知识模块,分为源数据层、策略层、表现层。关于知件她们也做了一些研究,在知件的基础上,如何进行模型驱动的知识抽取、知识的编排和演算,以及进行综合报告的深层化 ,这些都非常有意义。
在演讲的最后她提到,“我们希望在开放性学术知识图谱和可定制学术评价上,构建一个开放的学术评价社群。”
之后,王冠三先为大家描述了他认为的AI是什么,然后为大家描述了知识图谱的概念、包含哪些东西。他表示,他们之前在研究中让机器来读所有的论文,看机器是否能自己教会自己读取出需要抽取出来的信息等。
在对学者的排序过程中,对影响力的评估很重要。他们通过用不同的方法来进行排序,然后通过对结果来进行分析,来判断排序方法。目前有很多进行高校排名的方法,也出现了很多不同的名单,但并不是所有的方法都公平。他表示,他们用的是迭代算法来进行计算。在对学科进行评比的过程中,有些学校并不是每个小学科都能涵盖,这时候就需要选择有效的评比方法。另外,目前学术界每个月都会涌现出大量的论文,这时候就需要借助于机器。
最后,他也介绍到Open Academic Graph数据的使用方式,以及一些与它相关的技术手段,例如如何构建关系,将图画出来。
作为最后一位演讲的嘉宾,唐杰副教授先是总结了大家前面的演讲,然后介绍了开放学术组织(Open Academic Society),从理论研究、技术推广、国内国际合作等多个方面介绍了AMiner的总体情况,目前他们已经与多个机构合作成立了研究中心,包括与中国工程院合作成立了知识智能联合实验室,与微软合作成立数据研究院科技大数据研究中心等。
此外,他也提到了Open Academic Graph开放数据,他初步介绍了这个数据集的一些基本情况,除了论文数据,他们还发布了学者的相关信息、学者之间的关联信息、profile信息等。基于这些数据,他们还组织了一些数据挖掘比赛。
他表示,现在可以结合大数据、知识分析等,做出很多的学术地图画像,他为大家展示了他们做的人才迁徙图,可以看到国际上顶尖人才的迁徙路径。此外,基于那些学术大数据,他们还做了机构排名,也发布了CS领域最有影响力的学者排名。“大家要是有兴趣可以在这个数据上做非常多的工作,我们这个数据集完全开放。”
在最后panel讨论环节的嘉宾有金芝、周志华、王冠三、陈熙霖、王新兵,大家针对数据VS知识、大数据VS小数据、简单评价方法VS复杂评价方法等进行了精彩的讨论。针对最近的热门话题Alphago Zero,也有现场观众进行踊跃提问。欲知更多详细内容,敬请关注雷锋网 AI科技评论。