机器学习、人工智能领域的研究人员,以及任何学术研究人员,都关心这两件事:分享、传播自己的研究成果让更多人知道,以及了解自己研究方向的最新进展、结识更多的研究人员。雷锋网 AI 研习社大讲堂就是一个供研究人员们分享自己成果、促进广泛沟通互动的直播平台。
自 AI 大讲堂去年 7 月上线以来, 已经有来自清华大学、北京大学、上海交通大学、香港科技大学、 MIT、UC Berkeley、悉尼科技大学等知名国内外高校的嘉宾进行直播分享,甚至还举办了线下论文分享会,迄今已完成了 100 期,覆盖影响读者过万人。不仅嘉宾自己的研究成果被直播观众以及读者们了解,也让科技爱好者们、学生们、其它研究人员们增进了对人工智能相关思维、知识、应用的认识,为国内人工智能长期持续发展的氛围出一份力。
下面我们汇总了大讲堂精彩的 NLP 方向分享回顾。
word2vec是通过文本的语序和语境无监督训练出来能将词的语义表征到向量空间中的模型。自从Mikolov et al.在2013年提出之后,在文本分析中有着广泛的应用。在这次分享中,我将讲解word2vec模型的基本原理,它的一些变形,以及在一些数据挖掘任务中的应用。
语音分离的三个方面:语音增强(语音和非语音分离),多说话人分离和语音解混响;
语音分离的四个部分:模型,训练目标,训练数据和单通道分离算法。
第 20 期,生成式对抗网络在文本生成的探索:基础、前沿以及我们全新的结果
生成式对抗网络(GANs)目前已经得到了广泛研究者的关注并且在很多实际场景中得到应用。但是大多数研究工作仍然集中在例如图片和语音的连续稠密数据上,而对例如文本这样的序列离散数据的生成研究得较少。原因是对这类离散数据无法直接求导,导致原版的GAN模型无法工作。我们课题组在2017年AAAI提出SeqGAN框架来成功绕过这个问题,通过将文本生成器建模成一个强化学习策略并用REINFORCE梯度优化来学习这个生成器,SeqGAN达到了文本生成效果的提升。基于SeqGAN,我们课题组进一步研究了对抗过程中的信息泄露设置,发现判别器泄露的信息其实能很好地帮助生成器快速学习并最终达到更好的文本生成效果,这个新框架我们命名为LeakGAN。
LSTM-RNN可以对长时序列信息进行建模,广泛应用于语音识别声学模型建模中。此次主要介绍近期LSTM的一些研究进展包括LC-BLSTM,2D-LSTM等。其中LC-BLSTM采用了双向LSTM结构,并在训练和解码时加入了数帧的未来信息来控制延时,解决了普通双向LSTM无法用于实时语音识别的问题;而2D-LSTM在时间和频域两个维度上进行循环,同时保存时间轴与频域轴的序列信息,Google和微软都在大规模语音识别任务上验证了这类2D-LSTM结构的有效性。
唇语识别,即通过运动的嘴唇,识别其说话内容。通过LSTM模型将CNN抽取出来的图片特征进行时序建模,最后引入Seq2Seq的翻译模型将发音转换成汉字。此次分享,会先简单介绍现有的英文唇语识别的一些工作(《Lip Reading Sentences in the Wild》 和《LipNet: sentence level lipreading》),随后对中文唇语识别展开详细讨论。
深度好奇提出了用于垂直领域文档理解的OONP框架,它使用离散的对象本体图结构作为中间状态,该状态被OONP创建、更新直至最终输出。这个解析过程被OONP转化成为按照文本阅读顺序的离散动作的决策序列,模仿了人理解文本的认知程。OONP框架提供了神经符号主义的一个实例:在OONP框架内,连续信号、表示、操作和离散信号、表示、操作紧密结合,形成信息闭环。这使得OONP可以灵活地将各种先验知识用不同形式加入到行间记忆和策略网络中。为了优化OONP,深度好奇利用监督学习和强化学习以及二者的各种混合态,以适应不同强度和形式的监督信号以训练参数。
现实生活中干扰噪声的存在严重影响到助听器、人工耳蜗等听力设备佩戴者的语音可懂度。同时在智能语音交互设备中,这些干扰噪声的存在也严重影响了语音识别的正确率,随着智能音箱等设备的大热,语音前端信号处理越来越被重视起来。本次分享主要对单(多)通道的传统语音增强算法做个简单的汇总,然后重点讲解一下目前学术上比较前沿的基于深度学习的语音增强与分离算法。
随着强化学习在机器人和游戏AI等领域的成功,该方法也引起了越来越多的关注。本次分享将介绍我们利用强化学习技术,更好地解决自然语言处理中的两个经典任务:关系抽取和文本分类。在关系抽取任务中,我们尝试利用强化学习,解决远程监督方法自动生成的训练数据中的噪音问题。在文本分类任务中,我们利用强化学习得到更好的句子的结构化表示,并利用该表示得到了更好的文本分类效果。这两个工作均发表于AAAI 2018。
基于编码器-解码器结构的序列生成模型被广泛应用文本任务,例如神经机器翻译,摘要生成,对话系统等等。然而,现有模型在生成序列的时候都是只生成一次,而没有反复“推敲”的过程。而推敲在我们进行翻译、写文章的时候是一个很普遍的做法。因此我们将“推敲”引入序列生成模型中,提出了推敲网络,来改进序列生成质量。本次公开课中,夏应策同学将主要分享推敲网络算法及其应用。
第 49 期,AAAI’18 Chatbot技术预讲-众包NER&融合时间的标签推荐
近年来,聊天机器人(chatbot)作为AI技术的杀手级应用,发展得如火如荼,各种智能硬件层出不穷。而虚拟生命作为chatbot的下一代范式,更面临着许多技术挑战。本次演讲将详细阐述即将公开在AAAI’18的两篇论文。两篇论文分别研究了命名实体识别(NER)和推荐系统。前者是自然语言理解(NLU)的基础功能,而后者可以在产品上体现“生命感”和认知功能。由于NLU技术目前在人工智能领域也仅仅处于起步阶段,因此,在NER方面的研究,体现了如何利用众包技术进一步提升数据的质量和算法的性能,从而增强虚拟生命的感知功能。而推荐系统,则以场景化出发,可以通过对多源异构的知识图谱进行融合,实现准确的推荐,让用户真实感受到“情感陪伴和关怀”,从而使得虚拟生命产品,从传统聊天机器人的“被动交互”,进化到根据用户兴趣和喜好进行“主动交互”。
第 51 期,让人工智能像人类一样学习自然语言:无监督学习和情景化学习的最新进展
近几年,深度神经网络在自然语言学习任务上取得众多突破,但是仍然依赖于大规模静态标注数据。与此相反,人类学习语言的时候:
1)不需要大规模监督信号;
2)可通过与环境的交互理解语言。
基于让人工智能像人类一样学习语言的目标,本次分享将介绍无监督学习和情景化学习(language grounding)的一些最新进展,其中包括一篇ICLR Oral论文(录取率2%)的解读。
在如今大数据背景下,人们轻而易举的可以获得海量的文本数据,如何有效的分析这些文本数据,同时提取有效的特征用于后续的文本分类,文本检索以及推荐系统等应用中,成为一个重要的研究课题。虽然一些基于概率生成网络的主题模型被提出,比如 LDA ,深度 LDA 等,但是它们在测试阶段仍然需要耗费大量的时间去推理参数的后验,使得这些模型在实际应用的时效性上大打折扣。因此,本次公开课,张昊博士将结合他们团队 ICLR 2018 文章,WHAI: Weibull Hybrid Autoencoding Inference for Deep Topic Modeling,分享他在解决这个问题过程中的建模,算法实现以及实践经验。
话生成是近年自然语言处理领域的热门方向之一,如何控制回复的属性(如情绪、风格等)以提升回复质量和交互体验成为学术界和工业界共同关注的话题。在本次分享中,讲者将分享对话生成可控性的最新工作。
现如今,诸如小冰这类闲聊机器人逐渐进入了大众的视野,甚至成为了一部分人打发闲暇时光的伴侣。然而,现在的闲聊机器人在对话的互动性、一致性以及逻辑性上都还存在着一些亟待解决的缺陷。本次与大家分享的一篇收录于ACL2018的论文,将尝试着利用提问来解决闲聊机器人互动性不足的问题。
第 69 期,“九歌”——基于深度学习的中国古典诗歌自动生成系统
近年来人工智能与文学艺术的结合日趋紧密,AI自动绘画、自动作曲等方向都成为研究热点。诗歌自动生成是一项有趣且具有挑战性的任务。在本次公开课中, 讲者将介绍清华自然语言处理与社会人文计算实验室的自动作诗系统,“九歌”,及其相关的技术方法和论文。
word embedding是很常见的input feature,能够很大程度地提升模型的性能。另一方面,关于output对模型性能的影响,关注度并不是很高。在本次分享中,将介绍一下关于output embedding对于semantic parsing的影响。
义原(Sememe)在语言学中是指最小的不可再分的语义单位,而知网(HowNet)则是最著名的义原知识库。近些年包括知网在内的语言知识库在深度学习模型中的重要性越来越显著,但是这些人工构建的语言知识库往往面临新词不断出现的挑战。知网也不例外,而且其只为中、英文词标注了义原,这限制了它在其他语言的NLP任务中的应用。因此,我们希望采用机器学习的方法为中文新词自动推荐义原,并进一步为其他语言的词语推荐义原。
大数据开启了词典编纂的新模式,语义计算使得自动编辑成为可能。本次分享中,讲者分享如何通过word2vec等工具来计算字义相似度从而识别异体字。
近些年来,端到端(End-to-End)语音识别得到了广泛的关注和研究,成为语音识别领域新研究热点。本次公开课中,讲者将分享端到端语音识别框架提出的动机和几种主流方法的探讨与对比。
近些年来,端到端(End-to-End)语音合成得到了广泛的关注和研究,成为语音合成领域的新研究热点。本次公开课中,讲者将分享端到端语音合成框架提出的动机,并对几种主流方法介绍和对比。
近年来,对抗学习被广泛的应用在了计算机视觉的各个研究领域中,成为一个非常流行的研究热点。在语音相关的研究领域中,对抗学习也逐渐渗透到各个研究分支里,包括语音降噪与分离、语音合成、语音识别和说话人确认等任务。在本次报告中,我主要介绍我们将对抗学习应用在鲁棒语音识别任务中的工作。同时,也会简单介绍对抗样本在增强模型鲁棒性方面的工作。