雷锋网 AI 科技评论按,1 月 21 日,清华大学人工智能研究院知识中心(以下简称「知识中心」)成立仪式暨知识平台发布会在清华大学东南门内 FIT 楼隆重举行。作为清华人工智能研究院成立的首个研究中心,知识中心的成立是清华大学推进人工智能发展的重要举措,也是中国人工智能研究院的里程碑事件。
知识中心主任由李涓子老师担任。
李涓子,清华大学长聘教授,博士生导师。中国中文信息学会语言与知识计算专委会主任。研究方向为知识工程、语义 Web 和文本挖掘。近年来在重要国际会议和学术期刊上发表论文 100 余篇,编著出版《Mining User Generated Content》,《Semantic Mining in Social Networks》。主持国家自然科学基金重点课题、欧盟第七合作框架等多项国家、国际和部委项目。获得 2017 年北京市科技进步一等奖、2013 年人工智能学会科技创新一等奖等多个奖项。
知识智能研究中心成立仪式
清华大学人工智能研究院常务副院长孙茂松教授是本次会议的主持人,清华大学人工智能研究院院长张钹院士,清华大学副校长、清华大学人工智能研究院管委会主任尤政院士分别进行了致辞,并为知识中心举行了揭牌仪式。李涓子老师被聘任为知识中心主任,董振东先生被聘任为知识中心学术顾问。
清华大学人工智能研究院院长张钹院士首先代表清华大学人工智能研究院致辞。他指出知识是人类智能的重要特征,我们已经进入后深度学习时代,让计算机拥有大规模、高质量的形式化知识,是实现安全可信人工智能的重要使命,知识表示、获取、推理与计算将是新一代人工智能研究面临的核心问题。清华大学在知识智能方面有着深厚的研究积累,清华大学人工智能研究院目标是从事人工智能基础理论与方法研究,希望通过成立知识中心,打造国际一流的知识智能创新高地,推动鲁棒可解释人工智能的跨越式发展。
张钹院士致辞
清华大学副校长、清华大学人工智能研究院管委会主任尤政院士在致辞中表示,成立知识中心是清华大学推进人工智能发展的重要举措,也是清华大学人工智能研究院的一个里程碑事件。希望知识智能研究中心更好地汇聚校内外相关研究力量,在知识智能方面开展原创性的研究工作和技术创新,在实现鲁棒可解释人工智能方向上取得跨越式进展,更好地服务于国家和清华的人工智能发展战略。
尤政院士致辞
清华大学人工智能研究院于 2018 年 6 月 28 日在李兆基科技大楼揭牌成立。清华大学计算机系教授、中国科学院院士张钹出任首任院长,清华大学交叉信息研究院院长、图灵奖获得者姚期智担纲学术委员会主任。研究院以人工智能基础理论和基本方法研究为核心,积极推进大跨度的学科交叉融合,积极推进大范围的技术与产业、学校与企业融合,充分发挥清华大学在多学科综合、优秀人才汇聚、高水平国际合作等方面的独特优势,在人工智能的基础理论和基本方法上开展源头性和颠覆性创新,力争将人工智能研究院打造成为一个具有全球影响力的人工智能高端研究机构。在 2018 年 7 月,清华大学人工智能研究院刚成立时,雷锋网也曾采访过首任院长张钹院士,可以查看清华大学人工智能研究院成立第二天,我们请教了张钹院士四个问题。
知识中心(Knowledge Intelligence Research Center (KIRC))成立于 2019 年 1 月 21 日,是清华大学人工智能研究院设立的首个研究中心。中心将致力于:
开展理论研究。研究支持鲁棒可解释人工智能的大规模知识的表示、获取、推理与计算的基础理论和方法。
构建知识平台。建设包含语言知识、常识知识、世界知识、认知知识的大规模知识图谱以及典型行业知识库,建成清华大学知识计算开放平台。
促进交流合作。举办开放的、国际化的与知识智能相关的学术活动,增进学术交流;普及知识智能技术,促进产学合作。
知识中心将以促进清华和国家知识智能研究与发展为宗旨,打造具有广泛影响力的学术研究、知识计算平台与学术交流中心。
除了李涓子老师之外,知识中心的知名学者还包括孙茂松、朱小燕、唐杰、许斌、刘洋、黄民烈、刘知远等。
知识中心的知名学者
知识中心目前有三个实验室:
知识中心自然语言处理实验室(THUNLP):由孙茂松教授、刘洋副教授、刘知远副教授带领,主要从事中文信息处理、社会计算和知识图谱研究。最近在孙茂松教授牵头的 973 项目支持下,提出融合知识的统一语义表示框架和知识指导的自然语言处理的学术思想,取得一系列原创成果。
知识工程实验室(THUKEG):由李涓子教授、唐杰教授、许斌老师带领,主要从事知识工程、社会网络分析研究。最近研制的科技知识挖掘系统 AMiner 和跨语言知识图谱 XLORE,获得国内外广泛关注与使用,曾获北京市科技进步一等奖,中国人工智能学会科技进步一等奖。
交互式人工智能实验室(THUCoAI):由朱小燕教授、黄民烈副教授带领。主要从事机器学习与自然语言处理应用基础研究,主要研究方向包括深度学习、强化学习、问答系统、对话系统、情感理解、逻辑推理、语言生成等。最近探索将常识知识融入对话系统与文本生成,取得一系列原创成果。
清华大学知识计算开放平台(THUKC)发布会
知识中心在成立仪式上还发布了体现国内领先水平的清华大学知识计算开放平台(http://ai.tsinghua.edu.cn/kirc/),内容涵盖语言知识、常识知识、世界知识和科技知识库,包括:
在我国著名机器翻译专家董振东先生毕三十年之功建立的语言和常识知识库《知网》(HowNet)基础上所研制的 OpenHowNet;
中英文跨语言百科知识图谱 XLORE;
科技知识挖掘平台 AMiner。
基于AMiner的《清华大学人工智能技术系列报告》(THUAITR)。
XLORE:中英文跨语言百科知识图谱
XLORE 是融合中英文维基、法语维基和百度百科,对百科知识进行结构化和跨语言链接构建的多语言知识图谱,是中英文知识规模较平衡的大规模多语言通用知识图谱。
XLORE 是中英文知识规模平衡的大规模跨语言百科知识图谱。该图谱通过融合维基百科和百度百科,并对百科知识进行结构化和跨语言链接构建而成。该图谱以结构化形式描述客观世界中的概念、实例、属性及其丰富语义关系。XLORE 目前包含约 247 万概念、44.6 万属性/关系、1628 万实例和 260 万跨语言链接。XLORE 作为世界知识图谱,将为包括搜索引擎、智能问答等人工智能应用提供有力支撑。
XLORE 集成了多项创新研究成果:
利用基于链接因子图模型的知识链接方法,实现对不同语言知识资源之间的实体知识关联;
利用跨语言概念层次关系的验证保证生成跨语言本体中概念关系的质量,并进一步研究了跨语言知识图谱的概念层次剪枝和优化算法以规范知识分类体系;
利用因子图模型建立跨语言属性间的对应关系,减少知识图谱的冗余;
联合使用 DBpedia 分类树、维基分类体系、百度百科词条标签对未分类实体进行类别标注。相关成果发表在 WWW、IJCAI、ACL、EMNLP 等人工智能和自然语言处理领域重要国际会议上。
与著名知识图谱 DBpedia 相比,XLORE 的中文实体数量是其的 3.6 倍,中英文跨语言链接增加 39%。XLORE 还提供多样化数据 API 服务,系统累计访问次数过亿次,访问来自 53 个不同国家或地区;2018 年 API 响应调用 160 万余次。XLORE 项目计划于 2019 年正式发布跨语言实体链接服务 XLINK。
在世界知识的获取、表示与计算方面,中心还研制发布了很多开源工具和评测数据集,如知识表示学习工具包 OpenKE(https://github.com/thunlp/OpenKE)、神经网络关系抽取工具包 OpenNRE(https://github.com/thunlp/OpenNRE)、Few shot learning 关系抽取数据集 FewRel(https://github.com/thunlp/FewRel)等,自发布以来获得学术界与产业界广泛使用。
OpenHowNet:基于义原的开放语言知识库
网址:https://openhownet.thunlp.org/
OpenHowNet 是一个以词语的概念为抽象描述对象,以「义原」为基本语义单位,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识语言知识图谱。
HowNet 是由董振东先生、董强先生父子毕三十年之功建立的一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间、以及概念所具有的属性之间的关系为基本内容的语言和常识知识库。知网 HowNet 秉承还原论思想,认为词义概念可以用更小的语义单位来描述,这种语义单位被称为「义原」(Sememe),是最基本的、不易于再分割的意义的最小单位。在不断标注的过程中,HowNet 逐渐构建出了一套精细的义原体系(约 2000 个义原)。HowNet 基于该义原体系累计标注了数十万词汇/词义的语义信息,自 1999 年正式发布以来引起了中文信息处理领域极大的研究热情,在词汇相似度计算、文本分类、信息检索等方面探索了 HowNet 的重要应用价值,建立了广泛而深远的学术影响力。
2017 年以来,清华大学研究团队系统探索 HowNet 知识库在深度学习时代的应用价值,并在词汇语义表示、句子语义表示、词典扩展等任务上均得到了验证。研究发现,HowNet 通过统一的义原标注体系直接精准刻画语义信息,一方面能够突破词汇屏障,深入了解词汇背后丰富语义信息;另一方面每个义原含义明确固定,可被直接作为语义标签融入机器学习模型,使自然语言处理深度学习模型具有更好的鲁棒可解释性。相关成果均发表在 AAAI、IJCAI、ACL、EMNLP 等人工智能和自然语言处理领域顶级国际会议上。
为了让 HowNet 知识库及其学术思想得到更广泛的应用,知识中心联合董氏父子共同开源 HowNet 知识库核心数据,研制了知识库的访问与计算工具包,并将在清华大学知识计算平台上持续地维护、更新和扩展。
AMiner:科技知识挖掘平台
「AMiner」是一个研究者学术搜索类网站,能够为计算机科学相关领域的研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研人员提供信息获取和帮助。
AMiner 作为科技情报网络大数据挖掘平台,包含超过 2 亿篇学术论文和专利以及 1.36 亿科研人员学术网络。该平台于 2006 年上线,已经累计吸引全球 220 个国家和地区的 800 多万独立 IP 访问,数据下载量 230 万次,年度访问量超过 1000 万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。
AMiner 项目团队与中国工程科技知识中心、微软学术搜索、ACM、IEEE、DBLP、美国艾伦研究所、英国南安普顿大学等机构建立了良好的合作关系,项目成果及核心技术应用于中国工程院、科技部、国家自然科学基金委、华为、腾讯、阿里巴巴等国内外 20 多家企事业单位,为各单位的专家系统建设及产品升级提供了重要数据及技术支撑。
THUAITR:清华大学人工智能技术系列报告
「THUATIR」是以 AMiner 全球科技情报大数据挖掘服务平台为基础,聘请领域顶级专家作为顾问,采用人工智能自动生成技术,汇集而成的科技领域洞察报告。
THUAITR 以 AMiner 全球科技情报大数据挖掘服务平台为基础,聘请领域专家作为顾问,结合人工智能自动生成技术,以严谨、严肃、负责的态度制作发布的人工智能技术评论及人才分析。报告内容涵盖技术趋势、前沿预测、人才分布、实力对比、以及洞察情报等。
2018 年共发布 14 份技术报告(主题包括:自动驾驶 [基础版]、机器人、区块链、行为经济学、机器翻译、通信与人工智能、自动驾驶、自然语言处理、计算机图形学、超级计算机、3D 打印、智能机器人、人脸识别、人工智能芯片),累计阅读量超过 120 万人次。本次将新发布「知识图谱研究报告」和「数据挖掘研究报告」。
董强先生、李涓子教授、唐杰教授、黄民烈副教授、刘知远副教授分别介绍了知识计算开放平台本次发布的相关资源及应用案例。知识中心负责人李涓子教授表示,中心将在清华大学和人工智能研究院的支持下,以本次发布会为起点,坚持做好做强知识计算开放平台,用知识为 AI 赋能。
雷锋网