资讯 人工智能
此为临时链接,仅用于文章预览,将在时失效

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

作者:李尊
2016/08/25 20:45

本文联合编译:Blake、高斐

雷锋网注:Yoshua Bengio教授是机器学习大神之一,尤其是在深度学习这个领域,他也是人工智能领域中经典之作《Learning Deep Architectures for AI》的作者。Yoshua Bengio连同Geoff Hinton老先生以及 Yann LeCun教授一起造就了2006年始的深度学习复兴。他的研究工作主要聚焦在高级机器学习方面,致力于用其解决人工智能问题。目前他是仅存的几个仍然全身心投入在学术界的深度学习教授之一(蒙特利尔大学),本文是他在2009年的经典前瞻演讲——“人工智能学习深度架构”有关内容的第一部分。

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

人工智能学习深度架构

Yoshua Bengio 蒙特利尔大学

主要内容:“人工智能学习深度架构” 深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度架构效果好

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度架构的动机

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

局部捕获变量

竖轴为预测f(x),横轴为测试点x

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

较少变量情况下较为简单

紫色曲线代表真实未知运算

蓝色曲线代表已学会的运算:其中预测= f(x)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

维度的诅咒

1维时——10个位置(position)

2维时——100个位置(position)

3维时——1000个位置(position)

要实现局部概览,需要对所有的可能变量进行样本表征。

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

局部泛化的限制:理论结果(Bengio & Delalleau 2007)

理论:高斯内核机器至少需要k个样本来学会一个运算(在某些线上有2k个零交叉点)

理论:对于高斯内核的机器来说,对多种函数在维度上进行训练需要跨维度样本

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

在流形局部推广时维数的维数灾难 Curse of Dimensionality When Generalizing Locally on a Manifold

位图图像的旋转变换(rotation transformation of a bitmap image)

局部线性补丁与流形相切 local linear patches tangent to the manifold

收缩变化(shrinking transformation)

原始输入向量空间(raw input vector space)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

怎样击败变量中许多因素的诅咒?

组合性:在表征能力上指数增益

分布表征(Distributed representations)

深度架构(Deep architecture)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

分布表征(Distributed representations)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

局部VS分布

局部式分区:通过已学会原型进行分区

分布式分区:子分区1、子分区2、子分区3

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

认知神经科学的启示

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

大脑中的深度架构

V4区域——更高层次的视觉抽象

V3区域——初级的形状检测器

V2区域——边缘检测器

视网膜——像素

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

我们思想(头脑)中的深度架构

示例:

由图片(男人坐在地上)——原始输入向量表征——稍微高阶的表征——中间层级等——相当高阶的表征(男人、坐)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度架构与共享统计强度以及多任务学习

原始输入x——共享中间表征h——任务1、2、3(y1、y2、y3)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

特征与子特征共享

低阶特征——高阶特征——任务1-N(输出y1-yN)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

架构深度

元素集(*、sin、+、-)——输入(x、a、b) 输出(*)  深度=4

元素集(神经元、神经元、神经元)—— 深度=3

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度架构更具表达性

2层(逻辑闸、正式的神经元、RBF单元)=通用逼近器

所有的3个原理(Hastad et al 86 & 91, Bengio et al 2007)

使用k层紧密表征的运算可能需要k-1层的指数级别 

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度架构中共享组件

用共享组件表示的多项式:深度的优势可能指数级增长

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

如何来训练深度架构?

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

有关深度方面的突破

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

贪婪逐层预训练

堆栈受限玻尔兹曼机(RBM)——深度信念网络(DBN)——监督深度神经网络

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

良好的多层神经网络

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

训练多层神经网络

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

无监督预训练的效果

AISTATS’2009

横轴代表测试错误,竖轴代表计数

蓝色为不带预训练 橙色为带预训练

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

深度的影响

横轴为层级数目,竖轴为测试分类错误

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

玻尔兹曼机和MRFs

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

受限玻尔兹曼机

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

带(图像、标记)的RBM可见单元

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

RBMs是通用逼近器(LeRoux & Bengio 2008, Neural Comp.)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

RBM条件因式分解

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

RBM给予二项式神经元能量

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

RBM隐藏神经元划分输入控件

分区1、分区2、分区3

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

RBMs中的Gibbs取样

P(h|x) 和 P(x|h) 因式分解——简单推理、方便的Gibbs取样

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

Gibbs取样存在的问题

在实践中,Gibbs取样并不总是很好的混合。

在MNIST上通过CD训练RBM

随机状态的链

真正的数字链

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

自由能量

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

对自由能量的因式分解

 深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

基于能量的模型梯度

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

玻尔兹曼机梯度(Boltzmann Machine Gradient)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

训练RBMs

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

对比发散

对比发散(CD-k):从负相区块开始Gibbs链观察x,运行k Gibbs步骤(Hinton 2002)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

持续对比发散(PCD)

在参数变化太多之前链进行混合

当参数变化时,链保持收敛

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

具有高学习效率的持续对比散度(persistent CD)

在不考虑能量所处位置这一条件下,逆相样本迅速推高能量,并迅速移动到另一模式。

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

大步幅持续对比散度(persistent CD)

在不考虑能量所处位置这一条件下,逆相样本迅速推高能量,并迅速移动到另一模式。

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

具有高学习效率的持续对比散度(persistent CD)

在不考虑能量所处位置这一条件下,逆相样本迅速推高能量,并迅速移动到另一模式。

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

快速持续对比散度与集群

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

集群马尔可夫随机域(MRFs)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

集群受限玻尔兹曼机(RBMs)

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

运用集群实现快速混合

 深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

充当生成模型的采样器

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上) 

退火MCMC(Tempered MCMC)

总结:本文中主要提到了有关深度架构、神经网络、玻尔兹曼机等相关内容,以及为什么将它们应用到人工智能领域中的原由。作为 Yoshua Bengio在2009年的演讲,它是相当具有前瞻性的。在后续部分中, Yoshua Bengio也提到了DBN、无监督学习等有关理念及实践过程,请继续关注我们的接下来的第二部分内容文章。

PS : 本文由雷锋网编译,未经许可拒绝转载!

via Yoshua Bengio

长按图片保存图片,分享给好友或朋友圈

深度学习大神Yoshua Bengio经典前瞻演讲,帮你打通深度学习的任督二脉(上)

扫码查看文章

正在生成分享图...

取消
相关文章