ICML是国际顶级的机器学习会议,它与NIPS一起,是机器学习与人工智能研究领域影响力极高的两个主要会议。今年的ICML将于8月6-11日在澳大利亚悉尼召开,届时雷锋网 AI 科技评论也将前往现场进行报道。
作为国内著名的人工智能研究机构,腾讯 AI Lab 也有4篇论文入选了今年的 ICML。雷锋网 AI 科技评论对这4篇论文简单介绍如下。
「高效的分布式稀疏学习」
论文作者:王佳磊(芝加哥大学),Mladen Kolar(芝加哥大学), Nathan Srebro(丰田芝加哥技术研究院),张潼(腾讯 AI Lab)
论文简介:论文中介绍了一种新颖、高效的分布式稀疏学习方法,数据可以随机分配在多台计算机中进行学习。在所提方法的每一轮中,下属工作计算机会根据其上的数据计算损失梯度,总计算机则会对一个偏移的 L1 正则化损失最小值问题求解。可以证明,在经过一定数量的循环后,这个分布式方法的估计误差可以达到中心化计算的同等水平,而循环数量仅仅与计算机数目的对数成正比,而且与问题中其它的参数无关。
论文地址:http://ai.tencent.com/ailab/media/publications/ICML3-%E7%8E%8B%E4%BD%B3%E7%A3%8A.pdf
「无需投影的网络中的在线分布式学习」
论文作者:张文鹏(清华大学计算机系),Peilin Zhao(蚂蚁金服人工智能部),朱文武(清华大学计算机系“” 教授,IEEE、AAAS、SPIE Fellow),Steven C. H. Hoi(新加坡大学信息系统学院),张潼(腾讯 AI Lab)
论文简介:条件梯度算法由于其应对大规模机器学习问题时高效的特点,近几年来重新成为了研究的热门话题。然而,目前为止的研究都没有考虑过在线分布式环境下的算法表现,这种情况下本地的计算量就很轻微。在这篇论文中,作者们提出了在线分布式状况下的条件梯度算法,通过应用简单得多的线性优化步骤,避免了算法副本中高成本的投影操作,填补了这一研究空白。作者们在所提的算法中加入了一个约束边界,它是网络大小和拓扑形式的函数,对于更小的图或者连接状况更好的图,这个边界就会越小。根据两个真实的大规模数据集进行的多类别分类任务实验表明了所提算法带来的计算优势,并且验证了理论的约束边界。
论文地址:http://ai.tencent.com/ailab/media/publications/ICML-%E5%BC%A0%E6%96%87%E9%B9%8F.pdf
「GSOS:用于多项非平滑凸组合优化问题的高斯 - 赛德尔算子分裂算法」
论文作者:沈力(腾讯 AI Lab),刘威(腾讯 AI Lab),Ganzhao Yuan(中山大学),Shiqian Ma(香港中文大学)
论文简介:这篇论文中介绍了一种快速的“高斯 - 赛德尔”算子分裂算法(Gauss-Seidel Operator Splitting,GSOS),用于解决多项非平滑凸组合优化问题;这种算法未来可以在机器学习、信号处理和统计中得到广泛运用。所提的 GSOS 算法继承了高斯 - 赛德尔算法的优点,能够加速优化过程,并且借助算计分裂技巧降低了计算复杂度。另外,作者们还开发了一种新技术来为GSOS算法建立全局收敛。具体来说,作者们首先重构GSOS的迭代过程,通过应用算子优化理论让它成为一个两步的迭代算法。接下来,作者们基于这个两步的迭代算法重构建立了GSOS的收敛。最后,作者们应用这种GSOS算法解决重叠群套索和图引导稠套索问题。数值实验结果表明所提的GSOS算法在效率和有效性方面都比当前最好的方法有提升。
论文地址:http://ai.tencent.com/ailab/media/publications/ICML1-%E6%B2%88%E5%8A%9B-%E5%88%98%E5%A8%81.pdf
「同时降低特征和样本数量,提高稀疏SVM的规模」
论文作者:张卫忠(浙江大学计算机系),Bin Hong(密歇根大学),刘威(腾讯 AI Lab),Jieping Ye(密歇根大学),Deng Cai(浙江大学计算机系),Xiaofei He(浙江大学计算机系),Jie Wang(密歇根大学)
论文简介:稀疏支持向量机(SVM)是一种常见的分类方法,它可以同时学习一组数量不多、解释性强的特征并找到支持向量。这种方法在许多实际应用中都取得了不错的效果。然而,在样本数量非常多、特征维度非常高的大规模问题中,求稀疏SVM仍然是一个有难度的问题。作者们注意到稀疏SVM会导致特征空间和样本空间都出现稀疏性,从而提出了一种全新的方法,它基于对原始和双重优化SVM的精确估计,然后同时找到能够确认与输出相关的支持向量和样本。这样,作者们就可以从训练过程中去掉已经找到的非活动样本和特征,从而在不降低正确率的前提下显著降低内存占用和计算成本。据作者们所知,所提的这种方法是第一个用于稀疏SVM的统计性特征和样本削减方法。论文中分别基于生成的和真实数据集进行了实验(真实数据集例如包含大约2千万样本和3千万特征的kddb数据集),结果表明所提的方法相比现有方法得到了明显提升,而且所提的方法有若干数量级的速度提升。
论文地址:http://ai.tencent.com/ailab/media/publications/ICML2-%E5%BC%A0%E5%8D%AB%E5%BF%A0.pdf
ICML 2017即将开幕,雷锋网 AI 科技评论会前往现场报道。CVPR 2017 和 ACL 2017中的精彩内容也还在继续,请继续关注我们哦。