雷锋网AI科技评论按:本文首发于“阿里技术”,AI 科技评论获授权转载。
近日,由阿里巴巴联合中国中文信息学会语言与知识计算专委会 (KG 专委) 举办的知识图谱研讨会在杭州召开。研讨会由阿里巴巴集团副总裁墙辉(玄难)主持,知识图谱领域国内知名专家参与了此次研讨。
参会专家学者合影
到场的国内知名专家包括:中科院软件所、中国中文信息学会副理事长兼秘书长孙乐教授,清华大学李涓子教授、刘知远助理教授,中国科学院自动化所赵军教授、刘康副教授,浙江大学陈华钧教授,东南大学漆桂林教授,苏州大学张民教授、陈文亮教授,北京大学赵东岩教授、冯岩松副教授。
孙乐,中国科学院软件研究所,研究员,博士生导师,中文信息处理研究室负责人,中国中文信息学会副理事长兼秘书长,国际计算语言学年会(ACL 2015)组织委员会联系主席。
在大数据时代,语言的理解,除了要基于数据模型和计算之外,还需要注重神经科学认知机制,以及大规模知识图谱的利用。大规模知识图谱对自然语言理解有至关重要的作用。我们的研究主要涉及两个方面,一方面是从文本中获取知识,特别是如何构建大规模中文知识库,另外一方面是从知识到文本,如何基于已有知识来理解文本,比如实体链接和语义分析任务。
李涓子,清华大学教授,博士生导师,知识工程研究室负责人。中国中文信息学会语言与知识计算专业委员会主任。长期从事知识工程和新闻及社会网路挖掘研究。主持研制大规模跨语言知识图谱 XLORE。
大数据时代需要把数据转化成知识,为数据增添语义信息,获得对大数据的洞察,使数据产生智慧,以提供决策支持等智能服务。知识图谱把互联网的信息表达成更接近人类认知世界的形式,可以把互联网的内容从符号映射成计算机可理解和计算的语义信息。知识工程实际上就是从大数据中挖掘知识,建立知识图谱,弥合大数据机器学习的低值特征与人类认知的鸿沟,是实现机器智能的加速器。构建大数据环境下的知识引擎是实现从互联网信息服务向知识服务新业态跃迁的新技术。
赵军,中国科学院自动化研究所研究员,博士生导师。长期从事信息抽取、问答系统等方向的研究,在 ACL、SIGIR、IJCAI、COLING、TKDE 等顶级国际会议和期刊上发表论文 60 余篇,曾获 COLING-2014 最佳论文奖。
知识服务方式多种多样,知识图谱是重要的基础设施。作为一种重要的知识服务方式,问答和对话系统一方面需要从知识图谱中获取知识,满足用户信息需求;另一方面还需要从大规模问答和对话数据中学习问答和对话模式,以自然友好的方式与用户交互。其中,知识图谱基础设施与深度学习等高效计算手段的结合是富有潜力的关键技术。
浙江大学教授、博导,OpenKG 发起人,中国中文信息学会语言与知识计算专家委员会副主任,浙江省大数据智能计算重点实验室副主任。
阿里 KG 很有挑战,需要综合运用好知识表示与推理、自然语言处理和深度学习等多方面的技术具有获取、学习、表示和处理知识的能力是人类心智区别于其它物种心智的最重要特征。知识图谱帮助构建有「学识」的 AI。阿里 KG 的构建和应用都很有挑战,不限于辅助搜索和问答应用,还包括支撑基于场景的智能导购、辅助平台治理与管控、利用知识洞察消费趋势等多个应用场景,最具挑战的技术难点是推理能力的深度植入。对于计算机学科,产业力量非常重要,阿里已经有了这样的体量,应该具备像谷歌类似的科技领导力,也希望像阿里这样的行业翘楚能多多支持 OpenKG 的发展。
东南大学教授、博士生导师,获得「六大人才高峰」资助。中国中文信息学会语言与知识计算专业委员会副主任和中国科学技术情报学会知识组织专业委员会副主任。是开放知识图谱联盟 openKG 的联合创始人之一。语义 Web 国际权威期刊 Journal of Web Semantics 和 Semantic Web Journal 编委,是国际期刊 DataIntelligence Journal 的执行主编。
知识表示和推理对于知识工程来说是一个非常重要的研究方向。知识表示的形式很多,可以是图或者逻辑公式集合,也可以是向量或张量等分布式表示。但这些都是知识的表现形式,并不是知识的内涵。知识的内涵需要配合知识推理才能全面的展现出来。逻辑推理对于知识库的构建和应用都有不可忽略的价值,在知识库构建阶段可以去对知识库做不一致性检测,从而保证知识库不出现逻辑冲突,在应用阶段可以对一个面向知识库的查询做查询的重写,从而得到更多的精确答案。
逻辑推理需要有专家构建的高质量的规则库或者本体库才能很好的发挥作用。当然,随着技术的发展和海量数据的积累,也可以实现半自动构建规则和本体,这就需要去通过统计推理的方法来构建不确定性的规则或者本体,然后由专家来修正。另外,也可以通过统计关系学习直接在知识图谱是进行推理,现有的统计关系学习方法虽然很多,但是缺少在海量数据下可以应用的开源系统,这方面还有不少研究和工程工作要做。
苏州大学计算机科学与技术学院教授、博士生导师,苏州大学人类语言技术研究所副所长。曾担任 IALP-2015、IJCNLP-2017、CCKS-2017 程序委员会主席或领域主席。
高质量的标注训练数据是很难获得的。传统的聘请领域专家的数据标注方式获得的标注数据往往是「少、慢、好、贵」,而全部使用众包的标注方式获得的数据是「多、快、糙、省」。所以,可以采取一种折中的方式,利用少量的专家加上大量的众包人员完成标注任务,达到「多、快、好、省」的目的。这种方式比较适合分词、词性标注、NER 等任务,我们可以多快好省的把这个事情干好。
或者说用远程监督的方法,干脆不用人力,用知识图谱直接生成训练数据就行了,获得有噪音大量训练数据。我们的结果显示,带噪音的训练数据可以构造效果还算可以的关系抽取系统,但离效果很好的目标,还有很长的路要走。
清华大学计算机系助理教授、博士生导师。在 AAAI、IJCAI、ACL 等人工智能领域的著名国际期刊和会议发表相关论文 20 余篇,Google Scholar 统计引用超过 1900 次。
知识表示的挑战在于基于符号表示的三元组(RDF)无法有效计算实体间的语义关系。利用分布式表示学习旨在实现知识的高效表示与计算。知识表示学习旨在将知识图谱中的实体和关系映射到低维向量空间。该向量空间可以有效缓解大数据处理面临的数据稀疏问题,并能够灵活实现多源信息融合与知识迁移。近年来,以 TransE 为代表的知识表示学习已在知识图谱补全、关系抽取、知识图谱融合、实体分类等多个重要任务中获得广泛应用。
博士,北京大学计算机科学与技术研究所副教授。其研究小组构建了大规模结构化中文百科知识库 PKUBase,并连续三年在面向结构化知识库的知识问答评测 QALD-4,5, 6 中获得第一名。
目前知识图谱的构建主要有三种方案:一是利用专家手工构建,二是基于已有结构化资源自动构建,三是利用志愿者众包标注。关键点在于知识库体系的确定方法和知识条目的收集。在神经网络时代下,与传统方法相比,深度学习框架具有先天的优势,但仍需要与专家经验做进一步结合。利用先验知识,充分利用「人」来完善知识图谱的构建,将人给出经验性规则与现代机器学习方法有机结合起来必将是未来知识图谱研究的发展方向之一。