雷锋网AI科技评论按:这几天在澳洲举行的人工智能领域顶级会议“人工智能国际联合大会”(International Joint Conference on Artificial Intelligence,IJCAI 2017),IJCAI今年共收到2540篇论文投稿,最终录用660篇,录用率26%。
雷锋网注意到在这660篇文章中,清华大学 自然语言处理与社会人文计算实验室(thunlp)就有7篇论文被IJCAI收录。它们分别是:
1、《Fast Network Embedding Enhancement via High Order Proximity Approximation 》
一句话:针对网络表示学习问题提出一种基于高阶邻接度逼近的快速算法,能够普遍提升已有网络表示学习算法的性能。
摘要:最近在网络顶点向量表示的学习上提出了许多网络表示学习(NRL)方法。在这篇文章中,我们将现有的大多数NRL方法统一归纳为两步骤框架,包括邻近度矩阵构造和维度降低。我们集中分析邻近度矩阵构造这一步骤。当构建邻近度矩阵时我们得出一个结论,即可以通过高阶邻近度来改进NRL方法。我们提出网络嵌入更新(Network Embedding Update, NEU)算法,其中隐含地有理论近似约束的高阶邻近度,它可以应用到任意一个NRL方法中来提高这些方法的性能。实验上我们对多标签分类和连接预测任务做了实验。结果表明,NEU可以对所有三种公开数据集的NRL方法有一致且显著的改进,运行时间几乎可以忽略不计。本文代码可以从https://github.com/thunlp/NEU 获得。
论文下载地址:https://www.ijcai.org/proceedings/2017/0544.pdf
2、《Joint Training for Pivot-based Neural Machine Translation 》
一句话:针对低资源语言的神经机器翻译提出了源语言-桥接语言和桥接语言-目标语言翻译模型的联合训练算法,增强两个模型在参数估计中的关联性。
摘要:近来神经网络机器翻译方法在资源丰富的语言上表现极佳,但是对于低资源语言却有着数据稀缺的问题。这个问题可以通过桥接语言来连接源语言和目标语言得以缓解,但是目前源语言-桥接语言和桥接语言-目标语言的模型在训练时大多是相互独立的。在我们的工作中,我们引入了基于桥接语言的神经机器翻译的联合训练算法。我们提出了三种方式来连接源-桥接和桥接-目标这两种模型,使他们在训练过程中能够相互作用。基于Europarl和WMT语料库的实验表明,这种联合训练在多种语言中相比比独立训练效果都有显著提高。
论文下载地址:https://www.ijcai.org/proceedings/2017/0555.pdf
3、《TransNet: Translation-Based Network Representation Learning for Social Relation Extraction 》
一句话:提出社会网络中用户关系抽取问题,成功地利用用户低维表示间的平移(Translating)思想表示用户关系,实现用户关系的识别与标注。
摘要:常规的网络表示学习(NRL)模型一般是通过简单地将每个边缘作为二分/连续的值来学习低维丁点表示。但实际上,在边缘部分存在丰富的语义信息,且顶点之间的相互作用通常会保留不同的含义,这些信息在现有的大部分NRL模型中都被忽略了。在本文中,我们提出了一种基于翻译的NRL模型,TransNet,通过将顶点之间的相互作用作为翻译来操作。此外,我们将社会化关系提取(Social Relation Extraction, SRE)的任务格式化,用来评估NRL方法对顶点关系建模的能力。SRE的实验结果表明,TransNet在hits@1上比其他基准方法显著提高10%到20%。源代码和数据集可以从https://github.com/thunlp/TransNet提取。
论文下载地址:https://www.ijcai.org/proceedings/2017/0399.pdf
4、《Lexical Sememe Prediction via Word Embeddings and Matrix Factorization》
一句话:提出面向HowNet的义原预测任务,提出基于词表示和矩阵分解的方法,能够有效预测新词或短语的义原信息。
摘要:义原(sememe)被定义为人类语言的最小语义单位。人们以前通过手动注释文本义原来形成语言知识的基础。但手动注释不仅耗时、费力,注释结果也具有显著的不一致性以及较大的噪声。在这篇文章中,我们首次探索了基于词嵌入编码的词语义学意义的词汇义原自动预测。此外我们应用矩阵因式分解方法来学习语义和词之间的语义关系。在实验中,我们采用了一个实际生活中的知识库HowNet进行训练和评估,结果显示了我们的词汇义原预测方法的有效性。我们的这种方法在现有噪杂的义原知识库的注释验证和新词汇/短语的注释中将会有很大的应用。
论文下载地址:https://www.ijcai.org/proceedings/2017/0587.pdf
5、《Iterative Entity Alignment via Joint Knowledge Embeddings 》
一句话:针对异质知识图谱间的实体对齐问题,仅根据异质知识图谱的结构信息,提出利用知识的分布式表示学习在低维语义空间中有效实现实体对齐。
摘要:实体对齐旨在将其对应方与多个知识图(Knowledge Graphs, KG)联系起来。大多数现有的方法通常依赖诸如维基百科链接这样的实体外部信息,且需要昂贵的受冻特征构造来完成对齐。在本文中,我们提出了一种通过联合知识嵌入来实现实体对齐的新方法。在我们的方法,我们根据在这种联合语义空间中的语义距离,将实体和各种KG的关系共同编码成一个统一的低维语义空间。在这个过程中,我们可以根据在联合语义空间中它们的语义距离将这些实体对齐。更具体地说,我们提出了一种迭代和参数共享的方法来提高对齐的性能。根据实际生活中的数据集的实验结果表明,与基准方法相比,我们的方法对实体对齐有显著的改进,并且利用联合知识嵌入可以进一步提高各种KG实现中的表现。
论文下载地址:https://www.ijcai.org/proceedings/2017/0595.pdf
6、《Image-embodied Knowledge Representation Learning》
一句话:针对知识的分布式表示学习问题,成功地引入实体的图像信息,显著提升知识表示能力。
摘要:实体图像可以为知识表示学习提供重要的视觉信息。大多数常规的方法仅从结构化的三元组来学习知识表示,而忽略了从实体图像中提取的丰富的视觉信息。在本文中,我们提出了一种新颖的图像呈现的知识表示学习模型(Image-embodied Knowledge Representation Learning model, IKRL),其中知识表示是同时用三重事实和图像来学习的。更具体地说,我们首先用句有神经图像编码器的实体的所有图像构造表示。然后,这些图像表示通过基于注意的方法被集成到聚合的基于图像的表示中。我们在知识图实现和三重分类上测试了我们的IKRL模型。实验结果表明,我们的模型在两个任务中都优于其他的基准方法,这也说明了视觉信息对于知识表示的重要性,以及我们的模型在学习图像表示中的性能。
论文下载地址:https://www.ijcai.org/proceedings/2017/0438.pdf
7、《Maximum Expected Likelihood Estimation for Zero-resource Neural Machine Translation》
一句话:针对零资源神经机器翻译提出最大期望似然估计准则训练准则,实现在无标数据情况下的直接翻译建模,缓解了传统方法分段解码所面临的错误传播问题。
摘要:虽然神经机器翻译(neural machine translation, NMT)最近在翻译少数资源丰富的语言中取得了显著的进步,但并行语料库并不总能用到大多数语言对中。为了解决这个问题,我们提出一种通过最大期望似然估计的零资源NMT方法。基本思想就是,在一个意向的源-目标语言翻译模型中,我们最大限度地提高关于连接-源翻译模型与连接-目标并行语料库之间的期望值。为了近似获得这个期望值,我们提出两种方法来结合 连接-源模型 和 源-目标模型。对这两种零资源语言对的实验表明,我们所提出的方法相比于基准方法会有实质性的增益。我们还看到,当源-目标模型与连接-源模型联合训练时,后者也将获得比独立训练较大的改进。
论文下载地址:https://www.ijcai.org/proceedings/2017/0594.pdf
雷锋网注:本文参考了“我组7篇论文被人工智能顶级会议IJCAI 2017录用”
相关文章:
现场|杨强教授当选新任IJCAI理事会主席后接受采访:华人首次当选的个中细节
大陆人工智能学者第一人!周志华当选IJCAI 2021程序委员会主席(附会后采访)