雷锋网消息,8月6日,机器学习领域最具影响力的学术会议之一的ICML 2017在澳大利亚悉尼正式开幕。当天,除了举行多场Tutorial外,ICML还在官网正式公布了本次会议的最佳论文评选结果。在前线雷锋网AI科技评论的两位编辑(张驰和刘芳平)第一时间为大家带来获奖论文的报道。
本届ICML最佳论文的主题是,利用影响函数理解黑箱预测。机器学习中的一个关键问题就是,系统为何做出某种预测?
我们不仅需要表现优异的模型,更需要可解释的模型。理解了模型如何做出决策,也就能进一步改善它。更重要的是,要让机器学习应用于现实中的重要问题,比如医疗诊断、做出决策、灾难响应,我们就需要一个能被人类理解和信任的系统。只有这样它才能有更多的应用,毕竟谁都不希望机器给出诊断结果和治疗意见,但不给出具体原因。
雷锋网了解到,可解释性在机器学习中正变得越来越重要。巧合的是,在今天上午的一场tutorial中,Google Brain的研究科学家Been Kim也谈到了机器学习的可解释性。她还指出,除了应用的角度,让机器学习可解释还能促进它更公平地被使用。她认为,机器学习这样强大的工具不能仅被少数人理解和使用,而是应该让更多的人受益,成为人人可用的工具。
机器学习的可解释性已经有了不少的研究,但多数着重于解释模型如何做预测,而这次的最佳论文提出的问题是,如何解释模型是从哪来的?这一研究通过模型的学习算法来追溯其预测,并上溯到了训练数据中。或许正是这种进一步追溯根源的新的视角,才让它获得了最佳论文奖。
值得一提的是,最佳论文的两位作者都是华人。
Pang Wei Koh是来自新加坡的斯坦福大学在读博士生。他此前在斯坦福获得了计算机科学学士与硕士学位,并在斯坦福的AI实验室与吴恩达一同工作过。在2012年,他加入了吴恩达联合创立的在线教育平台Coursera,成为其第三位员工。在2016年他开始在斯坦福攻读博士学位。
Percy Liang是斯坦福大学的助理教授,此前曾在MIT和UCB学习及做研究。他的研究大方向是机器学习与NLP,目前的研究重点是可信任的代理,这些代理能与人类进行有效沟通,并通过互动逐步改善。
最佳:Understanding Black-box Predictions via Influence Functions
作者:Pang Wei Koh, Percy Liang
简介:如何解释黑箱模型的预测呢?这篇论文利用影响函数(稳健统计学中的经典技术),通过学习算法跟踪模型的预测并追溯到训练数据,从而确定对给定预测影响最大训练点。为了将影响函数扩展到现代机器学习中,论文中设计了一个简单,高效的实现,仅需梯度oracle访问和Hessian矢量积。而且即使在非凸和非微分模型上,影响函数的近似值算法仍然可以提供有价值的信息。在线性模型和卷积神经网络中,论文中也证明,影响函数可用于理解模型行为,调试模型,检测数据集错误,甚至是生成视觉上无法区分的训练集攻击。
论文下载:https://arxiv.org/pdf/1703.04730.pdf
论文:Lost Relatives of the Gumbel Trick
作者:Matej Balog, Nilesh Tripuraneni, Zoubin Ghahramani, Adrian Weller
简介:Gumbel是从离散概率分布中抽样或估计其规格化配分函数的方法,它会以特定方式重复地对分布进行随机扰动,每次解决最可能的配置。论文中得出了一系列相关方法,其中包括Gumbel,这些新方法在几种情况下具有优异的属性,同时仅需最小的额外计算成本。特别的,要让Gumbel在离散图模型中产生计算优势,Gumbel扰动通常会被低秩扰动(low-rank perturbation)取代。而论文中的一种新方法,可以为Gibbs分布生成一系列连续抽样器。论文最后还展示了,Gumbel的简单的解析形式如何得到额外的理论成果。
论文下载:https://arxiv.org/pdf/1706.04161.pdf
论文:Modular Multitask Reinforcement Learning with Policy Sketches
作者:Jacob Andreas, Dan Klein, Sergey Levine
简介:论文描述了一个以策略草图(policy sketches)为指导的多任务深度增加学习框架。草图使用指定的子任务序列注释任务,提供关于任务之间的高级结构关系的信息,但没有如何实现的信息。为了从草图中学习,论文中提出了一个将每个子任务与模块化子策略相关联的模型,并通过在共享子策略之间绑定参数,共同最大限度地提高对完整任务特定策略的回报。论文中在三种环境中评估了方法的有效性,包括离散和连续控制环境,以及仅在完成一些高级子目标之后才能获得稀少奖励的情况。实验表明,用论文中的方法学习草图指导的策略,比现有的学习特定任务策略或共享策略的技术表现更好。
论文下载:https://arxiv.org/pdf/1611.01796
论文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions
作者:Jayadev Acharya, Hirakendu Das, Alon Orlitsky, Ananda Suresh
论文下载:http://people.ece.cornell.edu/acharya/papers/pml-opt.pdf
最佳:Combining Online and Offline Knowledge in UCT
作者:Sylvain Gelly and David Silver
简介:UCT算法使用基于样本的搜索在线学习值函数。 TD(λ)算法可以离线学习一个价值函数,用于策略分配。我们考虑了在UCT算法中组合离线和在线值函数的三种方法。首先,在Monte-Carlo模拟中,离线值函数被用作默认策略。其次,UCT值函数与快速在线估计的行动值(action value)相结合。第三,离线值函数用作UCT搜索树中的先验知识。我们在9 x 9 Go GnuGo 3.7.10中评估这些算法。第一种算法比随机模拟策略优于UCT,但令人惊讶的是,比更弱的手工模拟策略更差。第二种算法完全胜过UCT。第三种算法胜过拥有人工先验知识的UCT。我们将这些算法结合在MoGo中,它是世界上最强大的9 x 9 Go程序。每种技术都显著提高了MoGo的发挥力度。
论文下载:http://suo.im/2Ki4I
论文:Pegasos: Primal estimated sub-gradient solver for SVM
作者:Shai Shalev-Shwartz, Yoram Singer, Nathan Srebro
简介:我们描述和分析了一个简单有效的随机子梯度下降算法,用于解决支持向量机(SVM)提出的优化问题。我们证明获得精度εε求解所需的迭代次数为Õ(1 /ε)O〜(1 /ε),其中每次迭代在单个训练样本上运行。相比之下,先前对SVM的随机梯度下降法的分析需要Ω(1 /ε2)Ω(1 /ε2)迭代。如先前设计的SVM求解器,迭代次数也以1 /λ线性缩放,其中λ是SVM的正则化参数。对于线性内核,我们的方法的总运行时间是Õ(d /(λε))O〜(d /(λε)),其中d是每个示例中非零特征数量的约束。由于运行时间不直接取决于训练集的大小,因此得到的算法特别适合于从大型数据集学习。我们的方法也扩展到非线性内核,同时仅基于原始目标函数,尽管在这种情况下,运行时确实依赖于训练集大小。我们的算法特别适用于大文本分类问题,在这些问题中,我们展示了超过以前的SVM学习方法的数量级加速。
论文下载:http://suo.im/2kC6PR
论文:A Bound on the Label Complexity of Agnostic Active Learning)
作者:Steve Hanneke
简介:我们研究了不可知PAC模型中基于池的主动学习的标签复杂度。 具体来说,我们得出了Balcan,Beygelzimer和Langford提出的A2算法所做的标签请求数量的一般界限(Balcan et al. , 2006)。 这代表了不可知PAC模型中标签复杂度的第一个非常重要的通用上限。
论文下载:http://suo.im/2wFVX3