KDD,国际数据挖掘与知识发现大会,全称:ACM SIGKDD Conference on Knowledge Discovery and DataMining,是数据挖掘领域国际最高级别会议。
KDD“图深度学习国际研讨会:方法与应用(DLG 2019)”于2019年8月5日在美国阿拉斯加安克雷奇市举办。值得一提的是,国内人工智能独角兽乂学教育-松鼠AI深度参与的研究项目包揽了研讨会的最佳论文和最佳学生论文奖项。
深度学习是当今人工智能研究的核心。不过,由于这项技术无法直接应用于图形结构数据上,这也推动了学界对图深度学习的探索。过去几年,基于图形结构数据的神经网络在社交网络、生物信息学和医学信息学等领域取得了显着的成果。
自1995年以来,KDD大会连续举办了二十余届,每年的接收率不超过20%,今年的接收率不到15%。
值得一提的是,今年也是KDD采用双盲评审的第一年。依然分为研究赛道和应用赛道。
其中,据已公开消息,KDD研究赛道共收到1179篇投稿,其中111篇被接收为Oral论文,63篇被接收为Poster论文,入选率14.8%。
应用赛道收到700余篇论文,其中大45篇被接收为Oral论文,100篇被接收为Poster论文,接收率20.7%。
相较而言,KDD 2018年研究赛道接收181篇,接收率为18.4%,应用赛道接受112篇,接收率22.5%。
作为全球顶尖数据挖掘会议—第25届ACM SIGKDD知识发现和数据挖掘会议(KDD)— 的分支,DLG 2019旨在汇聚自不同背景和观点的学术研究人员和从业者,分享在图神经网络领域的前沿技术。
获得最佳论文的是来自华中师范大学、IBM研究院和乂学教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-Text Generation 》,这篇论文研究的是基于RDF数据的文本生成,该任务是在给定一组RDF三元组的情况下生成相应的描述性文本。
大多数先前的方法要么将此任务转换为序列到序列(Seq2Seq)的问题,要么使用基于图形的编码器对RDF三元组进行建模并解码文本序列。但这些方法都不能明确地模拟三元组内和三元组之间的全局和局部结构信息。此外,它们没有利用目标文本作为建模复杂RDF三元组的附加上下文内容。
为了解决这些问题,论文作者提出通过将图编码器和基于图形的三重编码器进行组合,从而学习RDF三元组的局部信息和全局结构信息。此外,研究者还使用基于Seq2Seq的自动编码器,利用目标文本作为上下文监督图编码器的学习。
WebNLG数据集的实验结果表明,研究团队提出的模型优于最先进(state of the art)的基线方法。
论文作者:
高含宁,吴凌飞,胡佰,许芳丽 (吴凌飞来自IBM研究院,许芳丽来自乂学教育-松鼠AI,其余作者来自华中师范大学)
为什么这项研究重要:
资源描述框架(Resource Description Frameworks) 是在结构化知识库中表达实体及其关系的常用框架。 基于W3C标准,每个RDF数据是由三个元素组成的三元组,形式为(主语,谓语,宾语)。
在自然语言生成(NLG)中,基于RDF数据的文本生成是一项具有挑战性的任务,因其广泛的工业应用而备受研究者的关注,包括基于知识的问答系统、实体摘要、数据驱动的新闻生成等等。
“比如你有一个知识图谱,然后你需要做一个问答系统。比如你有一个SparQL(RDF开发的一种查询语言),然后你去查询这个知识图谱,这样会返回一个RDF。RDF人是很难看懂的,所以这篇论文的初衷是可不可以把这个RDF返回的答案转换成自然语言,这样就能很自然的读懂返回的答案是什么意思。”论文作者之一、来自IBM研究院的吴凌飞博士解释说。
挑战何在:
随着端到端深度学习取得了巨大进展,尤其是各种Seq2Seq模型,基于RDF数据的文本生成已经取得了实足的进步。然而,如果简单地将RDF三元组转换为序列,可能会丢失重要的高阶信息。
由于RDF三元组可以被表达为知识图,因此研究人员最近提出了两种基于图网络的方法,但都分别存在缺陷:比如基于循环神经网络的模型无法表达实体和关系之间丰富的局部结构信息,而基于改进的图卷积网络(GCN)的图编码器无法表达三元组内和三元组之间的全局信息。
核心贡献:
为了解决上述问题,论文作者提出了一种新颖的神经网络架构,它利用基于图神经网络和上下文信息,试图提高模型基于RDF数据生成文本的能力。
研究团队提出了一种新的基于图结构的编码器模型,它结合了GCN编码器和GTR-LSTM三重编码器,为RDF三元组的多个视角输入建模,学习RDF三元组的局部和全局结构信息。
两个编码器都生成一组节点表征,GCN生成的节点更好地捕捉RDF三元组内的局部结构信息,而GTR-LSTM生成的节点主要关注全局结构信息,研究团通过结合GCN和GTR-LSTM的节点,通过平均池化获得图嵌入。
由于目标参考文本包含与三元组几乎相同的信息,因此,研究团队继而使用基于Seq2Seq的自动编码器,利用目标文本作为辅助上下文来监督图编码器的学习。
实验结果:
研究团队使用WEBNLG数据集,该数据集由资源侧三元数据集和目标侧参考文本组成。 每个RDF三元组表达为(主语,关系,宾语)。
整个数据集分为18102个训练对,2495个验证对和2269个测试对。实验采用WebNLG挑战的标准评估指标,包括BLEU和METEOR。
实验结果表明,研究团队提出的模型能够更好地对RDF三元组的全局和局部图结构进行编码,模型比WebNLG数据集上的其他基线模型高出约2.0 BLEU点。
此外,研究团队也手动评估了不同模型的结果。他们发现涉及GCN编码器的模型在表达实体之间的正确关系方面时表现更好;目标文本自动编码器和GTR-LSTM编码器在生成与RDF三元组之间的上下文信息相关联的文本方面表现更好。
在进一步的研究中,研究团队发现,他们提出的模型中有四个关键因素可能会影响生成文本的质量。它们分别是目标文本自动编码器,它将有助于集成目标测上下文信息;因子Ldis,能最小化图形表达和文本表达之间的距离;GCN编码器和GTR-LSTM编码器,它们对三元组的本地和全局信息进行编码。
获得最佳学生论文的是来自南京大学、IBM研究院和乂学教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,这篇论文研究的是基于图神经网络语义解析。
现有的神经语义解析器要么只考虑用于编码或解码的单词序列,要么忽略对解析目的有用的重要语法信息。 在本文中,论文作者提出了一种新的基于图神经网络(GNN)的神经语义解析器,即由图形编码器和分层树解码器组成的Graph2Tree。
论文作者:
李书城,吴凌飞,冯诗伟,许芳丽,许封元,仲盛 (吴凌飞来自IBM研究院,许芳丽来自乂学教育-松鼠AI,其余作者来自南京大学)
为什么这项研究重要:
作为自然语言处理(NLP)中的一个经典任务,语义解析(Sematic Parsing)是将自然语言的句子转换为机器可解析的语义表征。工业界有大量基于语义解析的成熟应用,如问答系统、语音助手和代码生成等等。
在过去的两年间,随着神经编解码方法的引入,语义分析模型也随之发生了巨大的变化。近年来,研究者开始开发具有Seq2Seq模型的神经语义解析器,这些解析器已经取得了显著的成果。
挑战何在:
由于语义表征通常是结构化对象(例如树形结构),因此研究人员投入了大量精力来开发基于结构的解码器,包括树形解码器、语法约束解码器、语义图生成的动作序列、以及基于抽象语法树的模块化解码器。
尽管这些方法取得了令人印象深刻的成果,但它们只考虑单词序列信息,而忽略了编码器端可用的其他丰富的语法信息,如依存树(dependency tree)或短语结构树(constituency tree)。
最近,研究人员已经证明了图神经网络在各种NLP任务中的重要应用,包括神经机器翻译、信息提取、和基于AMR的文本生成。 在语义解析中,研究人员曾提出过Graph2Seq模型,将依存树和短语结构树与单词序列结合起来,然后创建一个语法图作为编码输入。 然而,这种方法只是将逻辑形式视为一个序列,而忽略了解码器体系结构中结构化对象(如树)中的丰富信息。
核心贡献:
论文作者提出了一种新的基于图网络的神经语义解析器,即由一个图形编码器和一个分层树形解码器组成的Graph2Tree。
图形编码器将语法图(syntactic graph)有效地编码为矢量表征,而该语法图是从单词序列和相应的依存解析树或短语结构树构建的。具体而言,研究团队先将原始文本数据相应的语法关系自然地结合到输入序列中,形成一个图形数据结构,然后用图形编码器从这个图形架构中学习到高质量的矢量表征。
树形解码器从学习好的图级矢量表征中解码逻辑形式,充分学习逻辑形式表征的组成性质。同时,研究团队还提出在对应原始单词令牌和解析树节点的不同节点表征上计算单独的注意机制,以计算用于解码树结构化输出的最终上下文向量。 然后通过联合训练,在给定语法图的情况下来最大化正确描述的条件对数概率。
这篇论文一个比较大特点是自然语言的input和逻辑形式的output,两边都是结构化对象,把输入语句变成语法图,然后做input,逻辑形式是一个结构化ouput,用树形解码器来解码,可以最好的利用隐含的结构化信息和输出的时候对象的特点。
此外,研究团队还研究了不同语法图架构对GNN语义分析性能的影响。它们发现,由于依存树解析器或复杂短语结构树的不完美性,图形架构引入的噪声信息和结构复杂性都可能导致对基于GNN的语义解析器性能的显着不利影响。
实验结果:
研究团队通过实验希望回答几个问题:i)使用什么语法图能让基于图网络的方法表现良好? ii)通过正确构建的图形输入,Graph2Tree与基线方法相比表现会更好吗?
研究团队在三个基准数据集JOBS、GEO和ATIS上评估了Graph2Tree框架。第一个是个工作列表数据库JOBS,第二个是美国地理数据库GEO,最后一个是航班预订系统数据集ATIS。
在数据集JOBS和GEO的比较结果中,研究团队观察到,无论使用何种类型的图形结构,Graph2Tree在基于图形输入生成高质量逻辑形式方面要优于Graph2Seq模型。
在图架构方面,如果由CoreNLP工具产生的噪音导致语义解析错误,那么两个解析器的性能都会降低,甚至不能与只有Word Order的解析器相比。
类似地,短语结构树的跳跃大小 — 即结构复杂性 — 也对性能有很大影响。如果结构信息压倒性或极少,解析器的性能也会下降。
相反,当通过某种方法控制或减少输入引起的噪声时,可以显着提高Word Order + 依存数的性能;选择正确的图层时,也可以提高Word Order + 短语结构树的表现。例如,单层切割中的Word Order + 短语结构树的逻辑形式精度分别高于Word Order。
当天的研讨会由SIGKDD主席、京东集团副总裁裴健发表开场词,并邀请了来自斯坦福大学、清华大学、UCLA、UIUC等高校的学者发表演讲。
乂学教育-松鼠AI首席科学家崔炜博士也受大会邀请,介绍了目前图深度学习和知识图在自适应学习中的进展。
乂学教育自主研发的松鼠AI智适应在线学习系统,能不断地监测和评估学生个体的能力,发现他们学习中的弱点与不足,并让学生按照自己的步伐进步,提高学习成果。该系统提供优化的学习解决方案和同步的辅导支持,最大限度地提高学习效率,并提高学生的知识、技能和能力。
多年来,中国教育存在的高级教师资源短缺和地缘问题都影响优质教育的普及。松鼠AI的愿景是通过人工智能打造超级教师,给成千上万的学生提供量身教学。“每一个孩子读值得拥有一位一对一的超级教师,”崔炜说。
从2014年开始,乂学教育-松鼠AI就在自主研发针对中国K12学生的智适应学习系统,它的主要目标是精确地诊断学生的知识点掌握情况,然后推荐个性化的学习内容和学习路径规划。
首先是学生知识点的掌握。下图是某位松鼠AI学生对物理知识点的熟练掌握程度,可以看到蓝色的部分是该学生已经掌握的部分,占80%;黄色的部分是学生相对 比较薄弱的知识点,占20%。
如何精确地获悉学生的知识点掌握情况?松鼠AI从数据维度考量,可以通过学生的测试结果、测试时长、该测试的难度和涵盖哪些知识点,甚至是学生选择不同的错误选项和学生划鼠标的行为,都可以被用来当做行为数据判断。
具体到松鼠AI的工作原理,崔炜介绍说,这套智适应引擎共分为三层架构:本体层、算法层、交互系统。
本体层以内容为主,包括学习目标的本体、学习内容的本体和错因分析本体。松鼠AI自主研发了超纳米级的知识点拆分,可以对学生知识点更精准地判断。以初中数学为例,松鼠AI可以将300个知识点细化为3万个。
同时,松鼠AI基于贝叶斯网络状的图谱,把相关的知识点关联起来。通过这种技术,可以模拟优秀老师教学的顺序和关系,这种教学方法符合学生认知的规律和知识点层次难易上的关系。
算法层包含内容推荐引擎、学生用户画像引擎、目标管理引擎等。松鼠AI会结合用户状态评估引擎和知识推荐引擎,构建出数据模型,精准高效地测出每个学生的知识漏洞,根据学生的知识漏洞推荐相应的学习内容。
交互系统通过采集交互数据了解更多学生的信息,包括管理系统,检测预警系统和实时的事件收集器。
崔炜强调,基于人工智能的智适应学习系统采取了和传统教育完全不同的教学过程。
比如,在知识状态诊断方面,传统诊断是基于高频的考试,而松鼠AI的系统拥有基于信息论和知识空间理论的知识状态诊断,能精确定位知识漏洞。
传统的测评是基于成绩或排名,传统的智适应测评是基于 IRT、DINA、BKT、DKT模型,这些模型的缺陷是无法进行实时评测。松鼠AI的系统基于贝叶斯理论是能基于学生过去所有的记录来进行持续性的、实时的评估。
在内容推荐上,传统的推荐算法采用的是协同过滤算法,但在教育领域该算法并不适用,因为每个学生尽管学习情况类似,但知识点掌握各不相同,协同过滤算法不够精准,无法保证推荐内容的效果。
松鼠AI采用的是神经网络,基于学生的学习成果实现个性化的推荐,并通过深度学习的算法进一步提升个性化学习的精准性和推荐的精准性。
算法的优越性也体现在结果上。过去两年,松鼠AI已经在四次人机大战中战胜了优秀教师。截至目前,松鼠AI已经全国400多个城市开设近2000家线下学校,累计学生近200万。
乂学教育-松鼠AI目前累计融资近10亿人民币。去年,松鼠AI还捐赠了100万个账号,给数百万贫困家庭的孩子,来促进教育的公平化。
乂学教育-松鼠AI将在今年11月12-13日在上海中心举办第四届全球人工智能智适应教育峰会(AIAED),本次大会组委会主席是CMU计算机学院院长、机器学习教父Tom Mitchell教授。崔炜希望相关的从业者能在此契机下汇聚一堂,共同推动人工智能教育的进步。
第四届AIAED大会网址:
https://www.aiaed.net/