雷锋网【AI科技评论】报道,法国当地时间4月24日,「International Conference on Learning Representations」(国际学习表征会议 ICLR )正式在土伦开幕。Yann LeCun 在开场致辞时指出,今年超过 1100 人报名参加了此次会议,比去年多了一倍。
会议第一天,主题演讲厅座无虚席,全天下来由来自UC伯克利、纽约大学等的研究团队共进行了7场演讲;其余时间为Poster Session论文展示交流环节。据雷锋网【AI科技评论】了解,总体来说,本届ICLR是一个GAN撑起半边天的研究趋势。
从现场演讲氛围可以看出,ICLR给业界研究者提供了非常轻松也自由激烈的交流平台。究竟为何,接下来请与雷锋网【AI科技评论】一起分享今天的主题报告演讲的精华内容:
神经元群体如何提取/代表视觉信息?
其原理如何匹配以及优化我们的视觉环境?
这些表征如何加强或限制知觉?
我们可以从这些表征中获取到什么样的新的原理来应用到工程成像或视觉系统?
会议第一名Invited Talk嘉宾,是来自霍华德休斯医学研究所、纽约大学神经学、数学、心理学系的教授,IEEE fellow Eero Simoncelli。围绕上述几点议题,Eero Simoncelli教授提出“视觉质感visual texture”的表征学习概念和方法。
Eero Simoncelli构建了包含视觉世界属性、视觉任务要求,以及生物表现制约的视觉计算模型。他指出,结合了生物属性的浅层次模型比预期中的更强大。此外,合成的方式提供了更强大的表征纹理展示,它可以用于验证不变性、验证度量属性等。
数据压缩是一种基础工程问题,在数据存储和有限容量信道传输中有重要的应用。图像作为一种信息载体,数据量巨大,因此研究者们对图像压缩的研究从未停止过。在ICLR 2017会议上,来自纽约大学的Johannes Balle 等研究者提出了一种端到端优化的图像压缩方法,论文题为“End-to-End Optimized Image Compression”。
根据论文展示,这种方法包含了三个过程,分别是:非线性分析变换,均匀量化器,以及非线性合成变换。这些变换是在卷积线性滤波器和非线性激活函数的三个连续阶段中构建的。通过一组测试图像,该方法的表现通常比标准JPEG和JPEG 2000压缩方法有更好的rate-distortion性能。更重要的是,在所有比特率的所有图像中,该方法都实现了显著的视觉上质量的提升,这点也被客观的质量评测方法MS-SSIM证明。
这篇名为“Amortised MAP Inference for Image Super-resolution”的口头展示论文,是 Twitter 伦敦实验室与丹麦哥本哈根大学的研究成果。
论文摘要指出,图像超分辨率 (Super-Resolution, SR) 是一个不确定的逆向问题,相同的一张下采样(Downsampled)图像,进过图像超分辨率处理后,得出与原图相似的高分辨率图像却往往是不止一张,而是有很多张。当前大多数的单一图像进行超分辨率处理的方法是运用经验风险最小化 (Empirical Risk Minimisation, ERM) 原则,这时候一般情况下会出现单像素大小的均方误差 (Mean Squared Error, MSE) 损失。
但是,采用经验风险最小化原则处理得出的图像,像素之间的过度往往过度平滑,从而造成图像模糊,整体效果看起来与原图差别较大。比使用经验风险最小化原则更理想的方法,是使用最大后验概率( Maximum a Posteriori, MAP) 推断。在图像先验的前提下,得到高像素图像的可能性更高,因此得出的图像往往更接近原图。
因此论文表示,在超分辨率处理过程中,直接对低像素图像进行最大后验概率估值是非常重要的,就像如果想要确保样图图像先验,就需要先构建一个模型一样地重要。想要进行摊销最大后验概率推断,从而直接计算出最大后验概率估值,本文在这一步引入的新方法是使用卷积神经网络。
而为了确保网络输入低分辨率图像后,能始终如一地输出相应的高分辨率图像,研究人员创造性地引入了新型神经网络架构,在这个网络里,有效解决超分辨率的方法是,向仿射子空间进行投影。使用新型架构的结果显示,摊销最大后验概率推理,能减少到两个分布之间的最小化交叉熵,这个结果与生成模型经过训练后得到的结果相类似。如何对结果进行优化,论文里提出了三种方法:
(1)生成式对抗网络 (GAN)
(2)去噪指导超分辨率,从去噪过程中反向推导去噪的梯度估值,从而训练网络
(3)基线法,该方法使用最大似然训练图像先验
“我们实验表明,使用真实图像数据,基于生成式对抗网络得到的图像最接近原图。最后,在变分自动编码器的举例中,成功建立了生成式对抗网络和摊销变异推断之间的联系。”
首先本届ICLR获得最佳论文的是题为“Understanding deep learning requires rethinking generalization”,该论文由Chiyuan Zhang(麻省理工学院),Benjamin Recht(加利福尼亚大学伯克利分校),Samy Bengio、Moritz Hardt(谷歌大脑)和Oriol Vinyals(谷歌深度学习)共同完成。
论文摘要介绍称,有些成功运作的人工神经网络,尽管体量巨大,但它们在训练和测试性能两个阶段表现出来的结果却只存在微小差异。过去大家认为这种微小误差,要么是由于模型谱系自身的特性,要么是由在训练期间使用的正则化技术所致。
而经过大量系统实验,该论文团队展示了这种传统观点是不确切的。具体来说,其实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响,即使用完全非结构化随机噪声来替换真实图像也是如此。
“我们通过一个理论结构证实了实验结果。理论结构表明,只要参数数量超过实际中通常存在的数据点,简单两层深度神经网络(simple depth two neural networks)就能够产生完美的有限样本表达性。通过与传统模型的比较解释了我们的实验结果。”
当然,现场也不乏其他研究方向的技术天才,演讲者在展示完论文后的提问环节中就被challenge了——提问者表示:“那你们这个证明其实很简单啊!”——所有人都等待着演讲者的回应。
“是很好的问题。但说到简单,这样的问题给你们来解决也没有更好的方法了啊!”
掌声雷动。
而在同一天的展示中,还有一个讨论泛化问题的口头论文展示,就是(On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima)。随机梯度下降法(SGD)及其变体是许多深度学习任务选择的算法,这些方法以小批量训练采样数据方式操作,例如(32 - 512 ),以计算梯度的近似值。但在这个训练过程中,大的 batch size 会导致网络模型泛化能力下降,该论文通过实验证明其原因是收敛到了sharp minima,并提出了一些解决方案。
“Towards Principled Methods for Training Generative Adversarial Networks”,来自Martin Arjovsky, Leon Bottou。
该论文是前段时间火热的 “WGAN 的前作”。2017年2月,一篇新鲜出炉的arXiv论文《Wassertein GAN》在Reddit的Machine Learning频道火了,而这篇《Wassertein GAN》的理论来源正是前作《Towards Principled Methods for Training Generative Adversarial Networks》。
自从2014年Ian Goodfellow提出以来,GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起,很多论文都在尝试解决,但是效果不尽人意,比如最有名的一个改进DCGAN依靠的是对判别器和生成器的架构进行实验枚举,最终找到一组比较好的网络架构设置,但是实际上是治标不治本,没有彻底解决问题。而Wasserstein GAN成功地做到了以下爆炸性的几点:
彻底解决GAN训练不稳定的问题,不再需要小心平衡生成器和判别器的训练程度
基本解决了collapse mode的问题,确保了生成样本的多样性
训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程,这个数值越小代表GAN训练得越好,代表生成器产生的图像质量越高。
以上一切好处体现在不需要精心设计的网络架构,最简单的多层全连接网络就可以做到。而上述优化的理论来源,正是作者在本次大会论文,即前作《Towards Principled Methods for Training Generative Adversarial Networks》里面推的一堆公式定理,从理论上分析了原始GAN的问题所在,从而针对性地给出了改进要点。
因此,难怪前来参会的工业界人士表示,ICLR 2017虽然没有看到什么太出乎意料的研究, 但却收获了许多能够改进当前模型训练等工程问题的理论和方法。