雷锋网 AI 科技评论按:今年,IJCAI(国际人工智能联合会议,International Joint Conferences on Artificial Intelligence)将于 8 月 10 日至 16 日在中国澳门隆重召开。随着会议临近,特邀报告(Invited Talks)、 教学讲座(Tutorial)和主题研讨会(Workshop)等重要议程也相继出炉。
「联邦学习」作为当前人工智能领域一个有「异军突起」之势的研究方向,自今年刚提出这一概念时的「冷门」,到如今正式进入国际标准流程,无论是学术界还是工业界,都对这一研究方向显露出了较高的热情。
雷锋网 AI 科技评论注意到,国内「联邦学习」研究先行者杨强教授将在今年 IJCAI 会议上主导举办以「联邦学习」主题的 Workshop(Federated Machine Learning for User Privacy and Data Confidentiality),供在该课题上做出成果的学者们发表和介绍自己的论文,同时也为在场同一个研究方向的学者们提供一个交流的平台。
雷锋网 AI 科技评论对该主题研讨会的负责人微众银行人工智能部高级研究员刘洋进行了专访,聊了聊本次在 IJCAI 2019 上举办「联邦学习」Workshop 的出发点和期待,也聊了聊联邦学习目前的发展现状。
AI 科技评论:这次在 IJCAI 上举办「联邦学习」Workshop 的出发点时什么?
刘洋:我们这边举办这个 Workshop 的出发点最主要还是期望能利用这个机会推动联邦学习生态的建设,希望学术界、企业界以及法律、监管机构都能够对联邦学习这项技术有更深入的了解,并希望更多的企业加入到这个生态中来。
同时,我们也希望能借此机会搭建一个平台,让有志于做联邦学习方向的学生找到合适的研究团队。
AI 科技评论:本次 Workshop 拟定的规模大概多大?与其他主题的研讨会相比,联邦学习主题研讨会对于参会者来说,会有哪些不一样的吸引力?
刘洋:我们这次拟定的规模大概为 60 到 100 人。相比于其他主题的研讨会,我认为我们有以下几个吸引点:
第一,我们邀请到了在联邦学习领域有深入研究的国际领先的科学家们,包括 IBM 的 Shahrokh Daijavad、谷歌的 Jakub Konečný,他们会给现场的参会者做 Keynote 演讲,分享联邦学习国际最前沿和最先进的一些成果。
第二,论坛的最后一个小时,杨强老师会主持一个 Panel,邀请参与论坛的比较知名的专家在现场与参会者进行深度互动,一起探讨联邦学习未来的发展方向等等。
第三,这次在研讨会上分享的论文,我们会请参会者一同评选出几个奖项,其中就包括 Best Paper,用以激励该领域的学生和研究者们。
第四,这个研讨会给在学术界和工业界研究联邦学习的研究者们提供了一个很好的交流机会,他们可以通过这个研讨会更深入地了解对方都在做什么,彼此间也可以擦出更多思想的火花。
AI 科技评论:除了邀请了重量级的嘉宾来做 Keynote 演讲,在议程的其他设置和主题还有哪些考量?
刘洋:在议程设置上,除了 Keynote 演讲,我们还从本次研讨会的 40 多篇投稿中选择出了优秀的论文,并让论文作者来到现场做报道,我们分别组织了 4 场 Session(总共 12 篇研究价值比较高的论文作者会进行 15 分钟的论文介绍)和 1 场 Lightning Talk(总共 13 篇较优秀的论文作者会进行 5 分钟的论文轻讲解)。同时,这 13 篇将进行 5 分钟介绍的论文连同另外 6 篇优秀论文会以海报的形式进行展示。
同时,这 4 场 Session 设置的主题包括隐私、安全和系统的鲁棒性;系统的效率、交互和基础设施;联邦学习的整个机制设计、政策和应用,这都是我们认为在联邦学习领域中的非常重要的子领域,非常值得我们去深入研究和探讨。
比如说,联邦学习实际上就是一个系统,它本身的效率和优化,还没有得到广泛研究,所以我们希望将这个方向作为研讨会上集中探索的一个子领域;另外如何去引导政府制定与现在的法律法规相适应的政策,也是我们希望探讨的一个重要方向,因为它涉及的不光是学术研究,还地涉及到了非常多的法律法规和公平性等方面。
AI 科技评论:希望本次论坛达到怎样的效果,对于参加本次论坛的参会者有哪些期望?
刘洋:
一方面,我们肯定希望所有参加「联邦学习」研讨会的参会者都能够有很好的收获,这才说明我们这次举办的研讨会成功地给大家提供了一个交流的机会;
另一方面,我们也希望对于整个联邦学习的学术研究起到一个整体的推动作用,期望以这个研讨会为起点,将来无论是学术界还是工业界,都能够对联邦学习这一研究方向有更多探索和更多应用。
AI 科技评论:杨强老师和您们基本是国内最早一批研究联邦学习的人,当时是基于怎样的契机、背景,选择研究这一新的研究方向呢?
刘洋:首先,近两年来,我们发现 AI 和数据面临着比较独特的环境,在落地应用上面临很多难以克服的困境,并且主要是来自缺乏数据的困境,即数据孤岛现象。虽然谷歌在 2016 年就提出了联邦学习,但是并没有解决企业之间数据孤岛问题。
尤其是当我们来到企业以后,就强烈感受到,AI 如果想在工业界落地,是需要非常多的数据来支持的,然而大部分小企业基本上是无法应对这一难题的,如何让小企业也能享受到大企业的数据以及提升数据的价值,使我们希望解决的问题。
其次,随着国内、国际的数据监管在不断加强,比如说欧盟在 2018 年 5 月 25 日开始实施的《通用数据保护条例》(GDPR)以及国内近两年颁布的一连串更严格、涉及更广泛领域的数据监督法规,使得企业之间实现数据共享更成为一个遥不可及的目标。
这样的背景下,我们认为联邦学习是解决这两个核心问题的同一个解决思路,既能解决数据孤岛的问题,又能解决数据隐私的问题。
同时再加上我们在联邦学习上已经有了比较深厚的技术积累,我们的研发、工程人员都是这个方向的背景出身,且有很多年的研发经验以及很强的落地经验。所以我们就开始对联邦学习这个方向进行更多的技术研究、落地和推广。
AI 科技评论:实际上,最先提出联邦学习这个概念的是谷歌,那微众银行这边的联邦学习对于谷歌的联邦学习是否有继承的方面(同)?又有哪些发展和变革(异)?
刘洋:继承的方面就在于,我们和谷歌在联邦学习的整体思路上是一脉相承的。
而最核心的不同之处在于,谷歌的联邦学习方案是 To C 的(应用在用户的手机端),是同一家公司根据内部对 To C 业务的需求所产生的一套用以解决数据隐私问题的方案;而我们的联邦学习则是 To B 的,用以解决企业与企业之间的数据孤岛难题,是一个更开放的类似企业联盟的生态。
所以,根本上而言,谷歌的联邦学习方案是横向的,它使用的数据特征都是相同的,因而只需要建同一个模型;而我们的这种方案是纵向联邦学习,不同企业之间的数据特征往往都是不同的,所以即便面向的用户是相同的场景,整个技术方案和实施框架也是不一样的。
AI 科技评论:杨强老师之前也提到,一开始研究这个方向的时候并不被大家所看好,在推进这一研究的过程中想必也遇到了不少阻力和困难,其中最大的是?
刘洋:因为我们的最终目标是要建立一个让企业之间能够对话的机制和生态,所以我认为最大的挑战其实是我们如何让企业来了解我们的技术,并且愿意相信联邦学习的技术是能够解决数据隐私问题,同时能够打破企业之间的数据孤岛问题的。
在这个过程中,联邦学习除了技术本身外,还需要整套框架的支持,例如安全性保护和激励机制的设计和建设都是我们需要重点攻克的,所以建设这样一个联邦学习机制或者说生态要远比单纯的技术性问题难得多。
AI 科技评论:另外,联邦学习也涉及到很多算法(如分布式机器学习)等技术层面的东西,现在是否面临来自技术层面的挑战或瓶颈呢?
刘洋:实际上在技术方面,联邦学习已经相对来说比较成熟。目前我们的联邦学习,已经能够实现一些工业化的场景,做一些实际的工业落地。但是研究本身其实是一个非常漫长的过程,技术上也会存在很多可以优化、改进的地方。
AI 科技评论:目前,微众银行团队在联邦学习方面发展到了哪一个阶段?
刘洋:一项面向工业化的技术的发展过程一般是从开始的孵化到最终的大规模工业化量产。目前已经有很多大数据场景引入了我们的联邦学习方案,所以我们的联邦学习目前所处的阶段是非常接近大规模工业化量产的。
AI 科技评论:不久前联邦学习正式进入国际标准流程,这对于您们在联邦学习的研究以及推广方面,有哪些具体的促进作用?
刘洋:联邦学习正式进入国际标准流程,可以说是给整个联邦学习的生态建设打下了一个基石,意义巨大。
在联邦学习的推广过程中,我们越发地意识到,联邦学习要想真正实现落地应用,就必须建立一种企业之间的对话语言,并且一定要是得到国际法律法规体系支持的对话语言。所以联邦学习进入国际标准流程,可以让加入联邦学习联盟的企业能够在同一个框架上对话,同时,如果新的企业或机构想要加入联邦学习,也必须按照这一标准的规定应用同样的框架,这样又能够反过来推动联邦学习生态的扩大。
AI 科技评论:随着联邦学习的影响力日渐提升,现在学术界和业界对于联邦学习的研究热情也在提高,目前还有哪些机构在重点从事这个方向的研究工作?
刘洋:现在,业界有一大批企业在做联邦学习这个方向的研究,其中包括:第四范式推出了数据隐私方案,并且已在金融和医疗场景中应用该方案;创新工场在联邦学习的安全性方面展开了深入研究;京东将联邦学习应用到了城市大脑上;另外还有平安集团单独成立了一个联邦学习研发部门,等等。
而学术界,例如南洋理工大学、香港科技大学、北京航空航天大学以及清华大学等高校,都有很多老师和团队在进行联邦学习研究。
我们希望我们现在关于联邦学习的工作能够起到启蒙性质的作用,能够其启发更多的学生和研究人员来研究这个课题,希望明年能够看到学术界和企业家的研究者们对联邦学习展开更深入的研究。
AI 科技评论:联邦学习的落地场景都有哪些?
刘洋:医疗、金融、保险等需要用到很多大数据的领域,都是联邦学习的落地场景。
AI 科技评论:在让联邦学习具体落地到场景应用过程中,遇到了哪些困难或挑战?其中最大的挑战是哪个?
刘洋:联邦学习在不同的领域会遇到不同的挑战,比如说在金融领域,我们遇到的挑战更多的来自于监管机构,我们需要让监管机构去理解和推广联邦学习,从而成为银行之间进行对话的桥梁,所以我们也一直在跟深圳的监管机构进行沟通。另外在边缘计算领域,比如说 IoT,我们主要面临的挑战是边缘计算不足的问题。
AI 科技评论:在寻找落地的合作伙伴时,会有哪些重点考量的地方(例如,是否要求合作方拥有足够丰富的数据量)?
刘洋:我们目前还处在一个需要高速或加大力度拓展联邦学习生态的阶段,所以在合作伙伴的考量上面,我们其实并没有要求对方一定要是大公司或者是有技术深度的 AI 公司。在我们的生态中,现在有很多长尾的终端公司,也有一些创业公司,同时也有腾讯、平安这样的大企业。
合作伙伴的业务场景是否能够体现联邦学习的价值,这是我们一直以来的价值追求和衡量标准。
AI 科技评论:目前,联邦学习在这些领域的大数据应用中起到了哪些「看得见」的影响?期望它最终能为大数据的应用发挥怎样的作用?
刘洋:联邦学习的作用就在于能够将很多小数据汇聚在一起变成大数据,所以它的价值和影响主要是在隐私保护下汇聚和挖掘数据的价值。
比如在金融领域,联邦学习能够用以分析潜在的欺诈行为;在保险定价领域,能够更多维度地去精准分析用户的属性。则对于企业而言,应用联邦学习能够更有效地节省成本,同时也能够更精准地去做用户的目标定位和分级。
另外对于一些数据非常敏感的场景,比如说医疗领域,不同医院也能够通过联盟学习技术去共享敏感的医疗数据。
AI 科技评论:您认为联邦学习这一领域发展到理想的状态还要多久时间?
刘洋:实际上,一个领域要想从零发展到一个比较热门的状态,至少需要几年的时间。就比如说谷歌在 2016 年提出联邦学习,当时该领域仅有几篇论文;而在过去的两三年时间里,每年都有几十甚至上百篇论文出来。现在,联邦学习正处于一个快速发展的阶段,随着越来越多的人参与到这个研究领域,联邦学习会离理想的状态越来越近。
我认为联邦学习最理想的状态应该是能够能够解决大多数企业的痛点,并在落地应用上实现大规模量产。正如我刚提到的,我们现在已经在靠近这样一个阶段了,未来的一两年时间是非常关键的。
AI 科技评论:之后,微众银行会考虑做 To C 端的联邦学习吗?
刘洋:这是一个很好的问题。我认为我们目前还是会主要聚焦于 To B 的联邦学习,因为这是我们的优势所在。
未来我们可能也会涉及到 To C,但如果 To B 已形成几十万或几百万家的微、中小型企业的规模,我们能做的事情就已经很多很多了。所以我们未必一定要做跟谷歌同样的事情。
AI 科技评论:下一步,微众银行团队针对联邦学习这个方向的研究有哪些规划?
刘洋:在技术研发方面,我们下一步的规划包括几个方面,一是我们需要建立更好的攻防体系,让联邦学习变得更加安全,也更有效率;二是我们需要从技术层面加快建立激励机制,让更多企业加入到联邦学习联盟中来。
在生态推广方面,我们会继续完善整个联邦学习生态体系的建设和维护,建立企业之间能够进行对话的标准,同时针对不同的业务场景和不同的领域提出更多的解决方案。
(完)
IJCAI 2019 召开之际,联邦学习 Workshop 也将于 8 月 12 日 如期举行。更多信息请参考:http://fml2019.algorithmic-crowdsourcing.com/programme/?from=timeline