雷锋网编者按:万众瞩目的2017年ICLR 于今天在法国召开。该大会是Yann LeCun 、Yoshua Bengio 等几位行业顶级专家于2013年发起。别看它历史不长,影响力却不小,如今已成为深度学习领域一个至关重要的学术盛事。
据雷锋网消息,ICLR论文评选结果于今日新鲜出炉。经过列为评委的火眼金睛,在507份论文中共有15篇论文成功进入口头展示阶段,181篇进入海报展示阶段。
除了这些被选入ICLR 2017的论文,还有三篇论文成功当选为ICLR 2017最佳论文。今天,雷锋网小编就带大家领略一下这三篇最佳论文的风采。这三篇论文分别是:
《用半监督知识迁移解决深度学习中训练隐私数据的问题》(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data)
《通过递归实现神经编程架构通用化》(Making Neural Programming Architectures Generalize via Recursion)
《泛化——一个理解深度学习需要重新思考的问题》(Understanding deep learning requires rethinking generalization)
1.《用半监督知识迁移解决深度学习中训练隐私数据的问题》
(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data)
该论文由Nicolas Papernot(宾夕法尼亚州立大学)、Martín Abadi、Kunal Talwar(谷歌大脑)的,Úlfar Erlingsson(谷歌)以及Ian Goodfellow(OpenAI)共同完成。
提起Ian Goodfellow,经常关注雷锋网的同学一定不会陌生。Ian Goodfellow是Open AI顶级人工智能科学家,因其在生成式对抗网络领域的研究成果被尊称为“GAN之父”。关于他的GAN研究成果,请看雷锋网此前报道《深度丨 Yoshua Bengio 得意门生详解机器学习生成对抗网络》。
论文摘要
有些机器学习应用训练数据时可能会涉及到一些敏感数据,比如临床试验患者的医疗史。这是因为模型可能会无意间,以不容易被发现的方式将这些训练数据储存下来。而只要对模型进行仔细分析,这些敏感信息就能被重新提取出来。
为了解决这个问题,我们在这里为大家展示一种可以减少隐私数据泄露的通用方法——该方法以黑箱的方式,把用不相交数据集(例如来自不同用户子集的记录)训练而成的多个模型结合在一起。由于数据涉及隐私,所以模型不会被公开,而是作为学生模型的教师。学生需要学会的预测结果由全部教师的有噪投票(noisy vote)选出,并且学生不能直接对单个教师模型、底层数据或参数进行访问。
由于不涉及单个教师,因此也不会存在用单个数据集训练学生的情况。这就在差分隐私(differential privacy)方面确保了学生模型的隐私性。即使是入侵者可以查询学生模型并检查其内部运作,学生模型的隐私性依然有效。
和之前的工作相比,该方法只是加强了如何训练教师的弱假设:它可以应用于任何模型,包括非凸(non-convex)模型DNN。
改善后的隐私分析和半监督学习技术使模型在MNIST 和 SVHN 上既有高度的实用性,又能保护用户隐私不被泄露。
简单来说该方法就是:
用敏感数据的不相交子集训练一组教师模型;
用被教师组标记过的公共数据训练学生模型。
最终评审结果是这样评价的
该论文为差分隐私学习提供了一个通用的教师-学生模型,让学生学会预测一组教师的噪音投票。噪音让学生做到差分隐私的同时,也保证了MNIST和SVHN的精确分类。评选委员会认为该论文撰写得很优秀。
决定
采纳(口头展示)
(论文详情及评价可查看:https://openreview.net/forum?id=HkwoSDPgg¬eId=HkwoSDPgg)
2.《通过递归实现神经编程架构通用化》
(Making Neural Programming Architectures Generalize via Recursion)
该论文由Jonathon Cai, Richard Shin, Dawn Song(均来自于加利福尼亚大学伯克利分校)完成。
论文摘要
从经验角度来说, 试图从数据中学习编程的神经网络这一方法的通用性较差。而且,当输入的复杂度超过了一定水平,就很难去推断这些模型的表现效果。为了解决这个问题,我们提出用一个关键的抽象概念——递归(recursion)来增强神经架构。我们在神经编程器-解释器框架(Neural Programmer-Interpreter framework)上实现递归,这个过程包括四个任务:小学加法(grade-school addition)、冒泡排序(bubble sort)、拓扑排序(topological sort)和快速排序(quicksort)。我们用少量训练数据证明了该方法具有较好的可泛化性和可解释性。递归能将问题分割成一个个更小的部分,并大大减少每个神经网络组件的域,使其易于证明对整个系统行为的担保。我们的经验显示,为了让神经架构更牢靠地学习程序语义(program semantics),有必要引入这样的“递归”方法。
最终评审结果是这样评价的
该论文探讨了一个很有实际价值意义的问题。
决定
采纳(口头展示)
论文详情及评价可查看:https://openreview.net/forum?id=BkbY4psgg¬eId=BkbY4psgg
3. 《泛化——一个理解深度学习需要重新思考的问题》
(Understanding deep learning requires rethinking generalization)
该论文由Chiyuan Zhang(麻省理工学院),Benjamin Recht(加利福尼亚大学伯克利分校),Samy Bengio、Moritz Hardt(谷歌大脑)和Oriol Vinyals(谷歌深度学习)共同完成。
论文摘要
有些成功运作的人工神经网络,尽管体量巨大,但它们在训练和测试性能两个阶段表现出来的结果却只存在微小差异。过去大家认为这种微小误差,要么是由于模型谱系自身的特性,要么是由在训练期间使用的正则化技术所致。
经过大量系统实验,我们展示了这种传统观点是不确切的。具体来说,我们的实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响,即使用完全非结构化随机噪声来替换真实图像也是如此。
我们通过一个理论结构证实了实验结果。理论结构表明,只要参数数量超过实际中通常存在的数据点,简单两层深度神经网络(simple depth two neural networks)就能够产生完美的有限样本表达性。通过与传统模型的比较解释了我们的实验结果。
最终评审结果是这样评价的
作者在论文中阐述了深度神经网络拟合随机标签数据的能力,并给出了非常不错的实验结果。调查不仅合理,且有启发和激励意义。作者提出1. 一个理论实例,说明一个具有足够规模参数的简单浅层网络能够产生完美的有限样本表达性;2.一个系统且广泛的实验评估得以支持研究结果和论点。实验评估模型考虑得很周到。
该论文所具有的开创性意义将会在未来几年对许多研究起到启发作用。
决定
采纳(口头展示)
论文详情及评价可查看:https://openreview.net/forum?id=Sy8gdB9xx¬eId=Sy8gdB9xx
据雷锋网了解,第三篇论文入选2017ICLR也是在国内外引起了一番不小的争论,详情请看雷锋网报道《ICLR 17论文评审再起争议:LeCun学生认为最佳论文盛名过誉》。
关于三篇论文的介绍就到这里。ICLR2017大会各项议程已在官网放出(点击这里可查看),相关新闻请关注雷锋网最新报道。