不让「数据孤岛」成为 AI 发展的绊脚石，「联邦学习」将成突破口？

2019/02/27 17:39

雷锋网 AI 科技评论按：人工智能经过漫长发展，近些年成功突破技术与算力上的限制，因此得以在新世纪发挥着举足轻重的作用。不过随之而来是一系列的新问题——最典型的比如「数据孤岛」问题。该问题一日不被解决，将可能抑制人工智能领域的长期发展，并造成严重的商业后果。

人工智能面临的问题

人工智能发展至这一阶段，存在三个与数据紧密相关的问题：

很多领域的数据数量有限且质量较差，有人做过估算，如果将医疗数据交由第三方公司标注，需要动用 1 万人花上 10 年的时间才能收集到有效数据；
由于竞争关系、安全问题、审批流程等因素，数据之间的流通存在着难以打破的壁垒，即所谓的「数据孤岛」问题；
即便行业间有意交换数据，也可能遭遇政策问责，因为重视数据隐私和安全已经成为世界性的趋势，如欧盟最近引入的新法案——《通用数据保护条例》(General Data Protection Regulation, GDPR) 就是一个最佳证明。

针对以上问题，谷歌公司率先提出了基于个人终端设备的「横向联邦学习」（Horizontal Federated Learning）算法框架，而 AAAI Fellow 杨强教授与微众银行随后提出了基于「联邦学习」的系统性的通用解决方案，可以解决个人 (to C) 和公司间 (to B) 联合建模的问题。

「联邦学习」

「联邦学习」实际上是一种加密的分布式机器学习技术，参与各方可以在不披露底层数据和底层数据的加密（混淆）形态的前提下共建模型。它可以实现各个企业的自有数据不出本地，而是通过加密机制下的参数交换方式，即在不违反数据隐私法规情况下，建立一个虚拟的共有模型。由于数据本身不移动，因此也不会涉及隐私泄露和数据合规问题。建好的模型将在各自的区域仅为本地的目标服务。在这样一个机制下，参与各方的身份和地位相同，成功实现了「共同富裕」的目标。

「联邦学习」具有四大显著优势。

第一是数据隔离，数据不会泄露到外部，满足用户隐私保护和数据安全的需求；
第二是能够保证模型质量无损，不会出现负迁移，保证联邦模型比割裂的独立模型效果好；
第三则是参与者地位对等，能够实现公平合作；
最后，则是能够保证参与各方在保持独立性的情况下，进行信息与模型参数的加密交换，并同时获得成长。

（更多联邦学习技术介绍请登陆官网: https://www.fedai.org/#/）

「联邦学习」规范化

为了加速「联邦学习」的普及与落地，杨强教授与微众银行做出了众多努力，其中包括了在国际顶会上发表演讲、发布《联邦学习白皮书 V1.0》以及发布商用级开源项目 FATE（Federated AI Technology Enabler）等。最近，由微众银行主办的 IEEE P3652.1（联邦学习基础架构与应用）标准工作组第一次会议在深圳成功召开，会议的召开也正式宣告「联邦学习」走入行业规范。

「IEEE 标准协会」是世界领先的行业标准制定机构，其标准制定内容涵盖互联网、人工智能、电子电路和通信等多个领域。目前，IEEE 标准协会已经制定了 900 多个现行工业标准，如众所周知的 IEEE 802®有线与无线的网络通信标准和 IEEE 1394™标准，同时，还有 400 多项标准正在制定过程中。由微众银行牵头的 IEEE P3652.1 项目是首个联邦学习领域的国际标准。

不让「数据孤岛」成为 AI 发展的绊脚石，「联邦学习」将成突破口？

IEEE 会议上，杨强教授发表了相关演讲

不让「数据孤岛」成为 AI 发展的绊脚石，「联邦学习」将成突破口？

由微众银行主办的 IEEE P3652.1（联邦学习基础架构与应用）标准工作组第一次会议在深圳成功召开

「联邦学习」未来展望

在学界与业界的不懈努力下，「联邦学习」技术日渐成熟，针对不同数据方所涉及数据集的用户群体和用户特征不完全相同的问题，如今已延展出横向联邦学习、纵向联邦学习以及联邦迁移学习等分类：

横向联邦学习——在两个数据集的用户特征重叠较多而用户重叠较少的情况下，我们把数据集按照横向 (即用户维度) 切分，并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。
纵向联邦学习——在两个数据集的用户重叠较多而用户特征重叠较少的情况下，我们把数据集按照纵向 (即特征维度) 切分，并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。目前，逻辑回归模型，树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在这个联邦体系上。
联邦迁移学习——在两个数据集的用户与用户特征重叠都较少的情况下，我们不对数据进行切分，而可以利用迁移学习来克服数据或标签不足的情况。

不让「数据孤岛」成为 AI 发展的绊脚石，「联邦学习」将成突破口？

主要基于数据集的用户群体与用户特征进行分类，进而决定处理方案

以借贷行业为例，当需检测多方借贷的不良用户时，（在一个金融机构借贷后还钱给另一个借贷机构），在联邦学习的条件下，即可利用联邦机制向联邦内的其他机构发出新用户的查询，这样既能保护已有用户在各个金融机构的隐私和数据完整性，也能完成查询多头借贷的问题。

我们期待，在不远的将来，联邦学习能够帮助打破各领域、各行业的数据壁垒，在保护数据隐私和安全的前提下形成一个数据与知识共享的共同体，并同时解决了奖励对联盟做出贡献机构的共识机制，将人工智能带来的红利落实到社会的各个角落。

雷锋网 AI 科技评论雷锋网