ASSIA | 中国自动化学会「深度与宽度强化学习」智能自动化学科前沿讲习班（一）

作者：sanman

2018/06/11 10:23

雷锋网 AI 科技评论按：2018 年 5 月 31 日-6 月 1 日，中国自动化学会在中国科学院自动化研究所成功举办第 5 期智能自动化学科前沿讲习班，主题为「深度与宽度强化学习」。

如何赋予机器自主学习的能力，一直是人工智能领域的研究热点。在越来越多的复杂现实场景任务中，需要利用深度学习、宽度学习来自动学习大规模输入数据的抽象表征，并以此表征为依据进行自我激励的强化学习，优化解决问题的策略。深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用，使其被认为是迈向通用人工智能的重要途径。

本期讲习班邀请有澳门大学讲座教授，中国自动化学会副理事长陈俊龙，清华大学教授宋士吉，北京交通大学教授侯忠生，国防科技大学教授徐昕，中国中车首席专家杨颖，中科院研究员赵冬斌，清华大学教授季向阳，西安交通大学教授陈霸东，浙江大学教授刘勇，清华大学副教授游科友等十位学者就深度与宽度强化学习技术在游戏、机器人控制、参数优化、机器视觉等领域中的成功应用进行报告。

雷锋网AI科技评论在本文中将对 31 日陈俊龙、宋士吉、侯忠生、季向阳、陈霸东的 5 场精彩报告进行介绍。6 月 1 日的精彩报告见下篇文章。

陈俊龙：从深度强化学习到宽度强化学习：结构，算法，机遇及挑战

陈俊龙是澳门大学讲座教授，中国自动化学会副理事长，国家千人学者，IEEE Fellow、AAAS Fellow、IAPR Fellow。

本报告讨论强化学习的结构及理论，包括马尔科夫决策过程、强化学习的数学表达式、策略的构建、估计及预测未来的回报。还讨论如何用深度神经网络学习来稳定学习过程及特征提取、如何利用宽度学习结构跟强化学习结合。最后讨论深度、宽度强化学习带来的机遇与挑战。

陈俊龙教授提出的宽度学习系统（Broad Learning System，BLS）是基于将映射特征作为 RVFLNN 输入的思想设计的。此外，BLS 可以在新加入的数据以有效和高效的方式更新系统（输入的增量学习）。BLS 的设计思路为：首先，利用输入数据映射的特征作为网络的「特征节点」。其次，映射的特征被增强为随机生成权重的「增强节点」。最后，所有映射的特征和增强节点直接连接到输出端，对应的输出系数可以通过快递的 Pseudo 伪逆得出。

宽度强化学习相较于深度强化学习需要的训练时间更短，计算更快的同时准确度也高，并使用额外的节点来提高准确度，常规方法则是提高层数。

陈俊龙教授认为强化学习接下来还要面对安全性和有效性问题，过度拟合等一系列挑战。

宋士吉：基于强化学习的深海机器人智能搜索与运动控制方法

宋士吉是清华大学自动化系教授，博士生导师，国家 CIMS 工程技术研究中心研究员。

本报告阐述强化学习在深海机器人智能搜索与运动控制领域的算法研究及其应用，从热液羽状流智能搜索与深海机器人运动控制两个方面开展工作。在热液羽状流智能搜索方面，研究基于强化学习和递归网络的羽状流追踪算法。利用传感器采集到的流场与热液信号信息，将机器人搜索热液喷口的过程建模为状态行为域连续的马尔科夫决策过程，通过强化学习算法得到机器人艏向的最优控制策略。在深海机器人运动控制方面，研究基于强化学习的轨迹跟踪与最优深度控制算法。在机器人系统模型未知的情况下，将控制问题建模成连续状态动作空间的马尔可夫决策过程，并构建评价网络与策略网络，通过确定性策略和神经网络学习得到最优控制策略。

侯忠生：数据驱动的自适应学习控制

侯忠生是北京交通大学教授、博导，北京交通大学自动控制系主任。

本报告分为以下 6 个部分：第 1 部分主要介绍数据驱动学习，之所以提出数据驱动学习是为了应付模型未知的场景；第 2 部分主要介绍学习控制，该部分主要介绍了无模型自适应学习控制；第 3 部分主要介绍动态线性化方法，动态线性化特点在于它不依赖于模型，结构，顺序等；第 4 部分是数据驱动自适应控制在时间轴上的应用；第 5 部分数据驱动自适应控制在迭代轴上的应用。第 6 部分是结论，即基于模型的控制理论收到越来越大的挑战，数据驱动的的控制理论也许可以作为解决方案。

季向阳：强化学习及智能控制与决策

季向阳是清华大学教授，国家杰青，中国青年科技奖获得者。

本报告主要聚焦于强化学习在智能控制系统中的应用。强化学习（Reinforcement learning）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。强化学习通常包括两个实体 agent 和 environment。两个实体的交互如下，在 environment 的 state s_t 下，agent 采取 action a_t 进而得到 reward r_t 并进入 state s_t+1。

本报告主要介绍如何在智能控制与决策中使用强化学习方法。

陈霸东：核自适应滤波与宽度学习

陈霸东是西安交通大学教授、博导，陕西省「百人计划」特聘教授。

本报告主要聚焦于核自适应滤波与宽度学习相关内容，核自适应滤波器（Kernel Adaptive Filters）是近年来兴起的在可再生核希尔伯特空间（RKHS）中实现的一类非线性自适应滤波器，其拓扑结构为线性增长的单隐层神经元网络。其基本思想是：首先，将输入信号映射到高维核空间；然后，在核空间中推导线性滤波算法；最后，利用核技巧（Kernel Trick）得到原信号空间中非线性滤波算法。与传统非线性滤波器比较，核自适应滤波器具有以下优点：（a）如果选取严格正定的 Mercer 核函数，具有万能逼近能力；（b）性能曲面在高维核空间中具有凸性，因此理论上不具局部极值；（c）隐节点由数据驱动生成，减少了人工参与；（d）具有自正则性（Self-regularization），可有效防止过拟合。因此，核自适应滤波概念提出以后引起了国内外研究者广泛兴趣，越来越多的相关算法被提出，并被应用到诸多领域。核自适应滤波与最近兴起的宽度学习（Broad Learning）关系密切，可以认为是一类基于核方法的宽度学习算法。本报告将深入系统地阐述核自适应滤波的基本思想、主要算法、性能分析、典型应用，以及如何将其与宽度学习纳入统一框架。

陈俊龙、宋士吉、侯忠生、季向阳、陈霸东的 5 场精彩报告介绍如上，敬请期待雷锋网 AI 科技评论的后续报道。