雷锋网 AI 科技评论按:人工智能顶级学术会议 AAAI 2019 (第 33 届 AAAI)即将在美国夏威夷开幕,会议时间是 1 月 27 日到 2 月 1 日,其中正会内容从 1 月 29 日开始。近日,AAAI 组委会在官网公布了几个论文奖奖项的获奖情况。雷锋网 AI 科技评论简介如下。
How to Combine Tree-Search Methods in Reinforcement Learning
如何把树搜索方法结合进强化学习中
论文摘要:有限时长的前瞻策略方法在强化学习中有着广泛的应用,这类方法在实证研究中展现出了优秀的表现。通常,前瞻策略方法在应用的时候都会搭配一些具体的规划方法,比如蒙特卡洛树搜索(AlphaZero 中就是这样做的)。对于看作是树搜索的规划问题,算法实现中的一种合理做法是只在叶子节点上备份值,同时在根节点上获得的值只会用来更新策略。在这篇论文中,作者们质疑了这种方法的表现。具体来说,这种做法并不具备一般化的收缩性,也无法保证收敛。作者们提出的改进方法思路直接而且简单:用最优的树路径的返回值备份根节点的子节点的值。这会带来 γh 的收缩过程,其中 γ 是折扣系数,h 是树的深度。为了表明这种方法的效果,作者们首次提出了一个名为「多步贪婪持续性」的想法。作者们编写了两个以上改进的算法实例,并在树搜索阶段和值估计阶段都注入噪声的状况下提供了收敛速率结果。
Solving Imperfect-Information Games via Discounted Regret Minimization
通过折扣后悔最小化解决非完全信息博弈
论文摘要:反事实后悔最小化(CFR)是一类最为火热的迭代算法,而且在实际应用中也是可以最快逼近解决大规模非完全信息博弈的方法。这篇论文中作者们提出了一种新的 CFR 变体,它的特点是,1,通过多种不同的方式,给较早的迭代中的后悔值打上折扣(在某些情况下,正值和负值的折扣比例会有所不同);2,迭代得到输出策略的过程中,通过多种不同的方式给不同的迭代赋予不同的权重;3,使用了一个非标准的后悔最小化优化器;4,使用了「乐观后悔匹配」。在多种设定下,这些改进都可以让方法的表现得到大幅度提高。具体来说,作者们提出的某一种变体在所有测试了的博弈中都比此前的最佳表现算法 CFR+ 表现更好,包括在一些大规模的真实设定中。而此前,CFR+ 一直是一个令人敬畏的基准模型,没有任何别的模型表现比它更好。最后作者们也展示了,与 CFR+ 不同,根据作者们提出的改进点设计的新 CFR 变体与现有的许多非完全信息博弈中的剪枝策略都是兼容的,而且其中也有一种和博弈树中的采样兼容。
Zero Shot Learning for Code Education: Rubric Sampling with Deep Learning Inference
用于编程学习的零样本学习:通过深度学习界面进行提示采样
论文摘要:在现代计算机科学教育中,大规模开放在线课程(MOOCs)在提供在线教育的同时也会记录下数千小时的学习过程,其中包括了学生如何解决编程题目的过程。既然手握这么多数据,这些平台也就引起了机器学习领域的研究人员们的兴趣,他们开发了许多新的算法,尝试以提供自动化反馈的方式帮助未来的学生们更好地学习。不过,提供了最初的几十万小时的训练数据的学生们怎么办呢?在大多数教学场景下(比如教室),想要为课后作业设计监督学习系统都会遇到历史数据不足的问题。在这篇论文中,作者们提出了一种人参与其中的「提示采样」方法,专门用来处理早期的「无样本学习」问题。对于在入门难度的编程作业中提供自动反馈的任务,相比于以往的需要数据喂养的方法,作者们提出的新方法为第一批学生们提供的反馈有显著的质量提高,而且接近了人类级别的可信度。提示采样需要老师付出的精力最小,可以提供和学生的回答的具体部分相关的反馈,而且可以使用指导者的语言指出学生的误解之处。深度学习推理的使用,让指示采样在未来有更多基于不同的作业的学生数据可用时也能发挥出更好的表现。作者们从全世界最大的编程教育平台 Code.org 采集了一个新数据集并在上面展示了方法的表现。
Learning to Teach in Cooperative Multiagent Reinforcement Learning
在多智能体合作强化学习中学习如何教学
论文摘要:人类个体的创新行为可以通过沟通教会别的人,人类集体智慧的提升显然从这种做法中受益匪浅。与人类社会群体类似,分布式学习系统中的智能体也许也可以从沟通中获益,可以分享知识、教授技能。此前已经有工作研究过如何通过教学的方式帮助智能体学习,但是这些方法做出的假设让它们无法在一般的多智能体问题中进行教学,又或者先需要它们要解决的问题的领域知识。这种学习教学的问题本身就有很高的复杂度,而且还要测量教学的长期影响,这在标准的多智能体协调问题上又增加了许多难度。与现有研究不同,这篇论文首次为多智能体环境中的智慧智能体学习教学问题提出了一个通用的框架和算法。作者们提出的算法,「学习协调与学习强化」(LeCTR),针对的是合作多智能体强化学习中的点对点(peer2peer)教学。方法中的每个智能体都要学习如何指导、指导什么内容,然后使用接收到的建议改进自己的学习。重要的是,这些角色并不是固定的;智能体们会学习在不同的时间决定别的智能体是学生还是老师的角色,对应地提供指导或者接受指导,以便提高整个团体范围内的表现和学习能力。与当前最好的方法之间的比较表明,作者们提出的教学智能体不仅显著地学习更快,而且也可以在现有方法无法解决的问题中学会协调。
Content-Boosted Collaborative Filtering for Improved Recommendations
内容加速的合作式筛选带来更好的推荐
这篇论文来自第 18 届 AAAI,即 AAAI 2002
获奖理由:这篇论文展示的方法是推荐系统中基于内容的和合作式过滤方法的补充
论文一作 Prem Melville 将在大会中发表演讲
完整 AAAI 2019 会议秩序册参见 https://aaai.org/Conferences/AAAI-19/wp-content/uploads/2019/01/AAAI19.Program.pdf
更多会议内容报道请继续关注雷锋网 AI 科技评论。