逻辑汇创始人丛明舒：联邦学习中的经济激励 | CCF-GAIR 2020

联邦学习奖励机制

2020/09/01 16:26

‍‍‍

逻辑汇创始人丛明舒：联邦学习中的经济激励 | CCF-GAIR 2020

8月7日-8月9日，2020年全球人工智能和机器人峰会（简称“CCF-GAIR 2020”）在深圳如期举办！CCF-GAIR由中国计算机学会（CCF）主办，香港中文大学（深圳）、雷锋网联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办，以“AI新基建产业新机遇”为大会主题，致力打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。雷锋网

8月9日下午，在「联邦学习与大数据隐私专场」上，逻辑汇创始人丛明舒博士进行了题为「联邦学习中的经济激励：从博弈论视角分析联邦学习商业化过程的经济激励机制」的演讲。雷锋网

以下是丛明舒老师在大会的演讲实录，AI科技评论作了不修改原意的整理和编辑：

在数据隐私日益得到重视的当下，联邦学习具有非常大的现实意义。但在联邦学习的商业落地过程中，除了数据隐私的考虑之外，为联邦学习的参与者提供充足的经济激励也是必不可少的。

个体理性约束

为什么要在联邦学习中引入经济激励机制？因为在联邦学习的过程中，非常可能存在个体利益和集体利益的冲突而导致合作失败。

这几年在跟进联邦学习项目的过程中，我们遇到一个例子：保险公司之间希望通过联邦学习建立一个模型来对保险的赔付率进行更加精确的预测，但是在项目落地的过程中，项目发起人很快发现，小的保险公司特别有兴趣参加联邦学习，但大的保险公司却兴趣一般。为什么？我们用一个非常简化的经济学模型来解释这个问题。

假设市场上只有两家保险公司，分别是A和B。A有海量数据，B只有少量的数据。在独立建模的情形下，A的模型要远好于B的模型，所以A的市场占有率会非常高。如果A与B合作建模，联邦模型的质量会提升，总市场规模会扩大。但与此同时，由于A和B使用同样的模型，A的市场占有率会下降。在这种情况下，A参与联邦之后的收益反而低于它独立建模的情形，所以A是没有任何动力参与联邦学习的。

在这里我们引入了博弈论的一个概念——“个体理性”。个体理性约束指的是，联邦学习任何参与者的净收益不能低于他不参与联邦学习的情形。个体理性约束在博弈论中是一项非常基础的要求，但在上面所说的案例中，违反了参与者A的个体理性约束。

针对上述的问题，我们认为在完全信息的情形下引入一个联邦的组织者即可以解决。

这个联邦组织者可以向每个模型的用户收取一定的模型使用费用。这个费用相当于用户使用模型所获得的收益。然后联邦组织者再将收取的模型使用费用转化为联邦的收入，按照A和B所贡献的数据量比例将收益分配给A和B。在这种情形下，用户A和用户B的净收益都会高于他们独立建模的情形，因此这次合作是成功的。

激励相容

但这个机制发挥作用的前提是，联邦组织者要非常精确地知道这个模型会给各个用户带来多少收益，也非常精确地知道A和B各自贡献数据的成本、拥有的数据量。但现实操作中存在信息不对称，联邦组织者没有办法掌握这些私有信息，所以联邦的参与者可能会通过谎报这些私有信息，和联邦组织者讨价还价，导致合作失败。

例子1：

联邦学习组织的参与者谎报Ta使用联邦模型所获得的收益，称联邦模型作用不大，只能带来非常少的收益，所以只付非常少的钱使用这种模型。在这种情况下，联邦的收入降低，可用于二次分配的收入也会很低，这样会导致用户A的收益再次低于独立建模的情形，合作失败。

例子2：

用户高报贡献数据的成本，跟组织者抱怨Ta的数据成本昂贵，要求组织者分配的收益务必要覆盖Ta所付出的成本，不然不愿意参与组织者的联邦学习。可是，如果联邦组织者覆盖一个用户的成本，就必然导致对其他用户的支付减少。这种情况会导致其他用户参与联邦的净收益低于独立建模的情形，合作再次失败。

例子3：

参与方瞒报拥有的数据量。比如说，A一方面使用自己所拥有的海量数据独立建模，同时拿出小部分质量差的数据给联邦学习和用户B去一起建一个联邦模型。这时候联邦模型的质量还不如私有模型，所以不会很大地损害用户A的市场占有率，A又通过参与联邦学习，从联邦获得一定的贡献数据的报酬。在这个策略下，用户A的净收益要高于Ta诚实贡献所有数据的情形，所以A有很大动力去说谎。

这就要介绍博弈论的第二个概念：激励相容。激励相容约束是说，每个用户诚实报告私有信息对Ta而言是最优选择。在这个情形下，用户A的激励相容约束是被打破的。由于用户A说谎，这时候用户B参与联邦学习的净收益小于Ta独立建模的情形，合作再次失败。

综上所述，在联邦学习中可能存在使用模型的收益、贡献数据的成本以及参与者拥有的数据量的三重信息不对称。这三重信息不对称交织在一起，使得每个参与者追求个体利益最大化的结果是：集体利益受到损害，造成合作失败。

联邦学习的激励机制设置就是为了解决上述问题。

克服贡献数据成本的信息不对称有一个简单机制，就是允许用户随便报成本，但是如果你报的成本太高，我就不再使用你的数据。虽然我不用你的数据，但我还允许你使用我的模型，我会向你收取使用模型的费用。假设B报告的成本非常高，联邦就不用B的数据，从而也不需要向B支付覆盖他成本的报酬。

在这种情况下，B会发现，他不仅得不到额外的贡献数据报酬，还需要支付模型使用费，相当于他的数据是没办法变现的，净收益低于把数据贡献出来的净收益，那么B就没有动力去虚报成本。

如上图所示，A和B的净收益随着他们所报告的成本变化而变化。大家可以发现，无论B做了什么，A诚实报告成本都是Ta最优的策略。无论A做了什么，B诚实报告成本也是Ta最优的策略。在这个机制里，诚实报告贡献数据的成本形成了占优策略均衡。在这种占优策略均衡下，没有任何用户愿意偏离均衡情况，大家都会愿意诚实报告成本。

上面例子给我们的启示是，我们可以通过挑选数据贡献者、控制模型的使用，以及合理计算对联邦学习参与方的支付，来实现联邦集体利益的最大化。

联邦学习激励机制的博弈论框架

在这个启示下，我们提出了研究联邦学习激励机制博弈论的理论框架。

联邦学习之激励机制设计是为联邦找到最优的组织和支付结构，从而实现一系列优化目标。组织结构包括使用哪些数据提供者的数据和如何控制模型的使用，支付结构指的是我们给每个参与方支付的金额。

遵循经济学的传统，我们画出了联邦学习经济资源循环流向图（如下）：

在联邦学习中，模型使用者是否贡献数据和是否使用模型应该分开。在这个模型中，供给侧和需求侧是分离的。一个数据提供者是否提供数据、提供多少数据，与Ta能否使用模型和使用模型需要支付多少费用是无关的。

在我们设计的框架下，联邦学习的参与者可以是数据提供者，也可以是模型使用者，或者两者兼具。在供给侧，数据提供者提供数据，获得报酬。在需求侧，模型使用者使用模型，并支付一定的费用。

这时，数据提供者和模型使用者都会遵循Ta的个体利益最大化的原则去选择策略。在供给侧，数据提供者会选择报告Ta所拥有的数据量以及贡献数据的成本。在需求侧，模型使用者会报告Ta使用模型得到的收益。

在可以预期参与者上述行为逻辑的情况下，我们的联邦学习组织者要决定四件事情：1、决定使用哪些数据提供者的数据，以及从每个数据提供者中使用多少数据;2、计算给每个数据提供者的报酬;3、在需求侧计算对不同模型使用者使用模型的权限控制;4、计算对每个模型使用者收取的费用。

对联邦学习的组织者而言，经济激励计算可以被设置成比较标准的计算机模块。这个模块的输入是数据提供者报告拥有的数据量、数据提供者报告的成本类型以及模型使用者报告的价值类型。模块的输出是从每个数据提供者那接收的数据、给每个数据提供者提供的报酬、使用模型的权限，以及向每个模型使用者的收费。

在这样的框架下，我们遵循激励机制设计所需要的两个准则：

理性人准则

正如刚才所提到的，设计者面对的都是追求自身利益最大化的理性人。

信息不对称准则

设计者和理性人之间的信息是不对称的。信息不对称包括三种情形：1) Unaware，所谓的“黑天鹅事件”，完全不知道某件事会发生；2) Uncertain，知道某些事情有可能发生，不知道事情发生的概率；3) Unknown，知道事件发生的概率分布，但不知道具体发生了哪些事件。

此外，我们基于联邦学习激励机制设计了一些假设：

假设1：

拟线性环境&基于货币的机制设计。我们假设每个参与者的效用关于其拥有的金钱是呈线性的。由于有这个假设，我们可以通过调节给不同参与者的支付货币来调节Ta的效用，激励Ta。

假设2：

数据供给与模型需求分开。

假设3：

存在外生资本市场。所以我们可以跨期调节联邦学习的现金流，因为一般的联邦学习项目开始有巨大现金投入，之后才产生收入，投入和收入在时间上不一定匹配。

在上述的假设下，我们优化了如下的目标：

非常不幸的是，上述的目标之间存在此消彼长的平衡关系。所以在实际应用中，我们往往只选择其中最重要的几个目标进行优化。

具体方案

为了说明联邦学习激励机制不是一个抽象的理论概念，我们简单介绍两个具体的方案：

方案一：位于需求侧的Cremer-McLean机制

它是一个非常著名的博弈论机制，在需求侧可以最大化联邦的收入。

Cremer-McLean证明了如果不同模型使用者之间使用模型产生收益存在一定的相关性，那么我们就一定可以找到一种支付结构使得联邦的收入等于所有模型使用者使用模型的收益之和，从而使联邦收入最大化。可是遵循传统的Cremer-McLean的计算方法是非常昂贵的，所以我们可以通过用梯度下降算法最小化损失函数来求解Cremer-McLean机制，大大减少了计算复杂度。

逻辑汇创始人丛明舒：联邦学习中的经济激励 | CCF-GAIR 2020

方案二：位于供给侧的PVCG机制

这个机制的目的主要是激励供给侧提供数据。

PVCG机制在著名的VCG机制的基础上加了一个调整项。VCG机制是一个曾经获得诺贝尔奖的理论成果，可以保证诚实报告参数，对每个参与者而言都是占优策略。我们的贡献是，通过优化神经网络加入一个调整项之后，PVCG机制可以同时满足个体理性、激励相容、社会最优以及预算均衡。

关于联邦学习激励机制设计的更多内容，请大家关注我们在杨强教授带领下将于年底出版的新书《Federated Learning: Privacy and Incentive》。

专题

CCF-GAIR 2020 全球人工智能与机器人峰会查看更多文章