在6月6日于杭州举办的全球人工智能技术大会可信AI专题论坛上,来自加州大学伯克利的宋晓冬教授(江湖人称“安全教母”)这样描述数据:数据是一种非竞争性(non-competition)的知识。
什么叫“非竞争性”?所谓“非竞争性”,是相对于部分商品具备的“排他性”而言。比如,同一时间与地点内只存在一个充电宝,但用户A与用户B的手机同时没电,两个人都需要充电,那么A与B之间就存在竞争关系。
但在数据层面,如果N个用户都需要各品牌车辆销售信息、平台品类消费总量、视频点击率等等数据,那么他们是可以同时使用的。也正是因为数据的可共享特征,人工智能才得以在现代科技中崭露头角,可以说:没有大数据,就没有深度学习;没有深度学习,就没有火热发展的人工智能。
然而,近几年,随着人们对数据隐私安全的越发重视,加之以2018年《欧盟一般数据保护条例》(即“GDPR”)为代表的各国数据隐私保护政策出炉,数据的获取与使用受到了一定限制。今年4月,欧盟又发布了全球首个针对人工智能技术的监管法规草案,禁止在公共场合使用人脸识别技术。
人脸识别是计算机视觉目前的主要商用方向,欧盟最新监管草案的出台无疑加大了人工智能落地的阻碍。同时,人工智能作为最前沿的技术之一,在医疗、金融、交通等信息数据敏感的重要社会领域中能发挥的作用也会越来越少。
事实上,在人工智能领域,除了以人脸识别为代表的图像感知模型对数据有较大依赖,被称为“通往通用人工智能的必经之路”的强化学习也离不开大数据的支持。强化学习的训练必须包含对数据的反复试错(trial and error),从而找到最优策略,以此来提高机器的决策能力。如果数据无法到位,那么强化学习的进步将受到限制,决策人工智能的实现也会难上加难。
那么,如何能够保证数据隐私不被泄露、又能正常使用数据进行研究呢?学术界与业界进行了多方探索,从同态加密到差分隐私,再到自动多方机器学习技术,最后,能够实现“数据可用不可见”的联邦学习(Federated Learning)技术脱颖而出,成为公认的数据调用“一把手”。
作为一种机器学习模式,联邦学习能够通过AI模型,在保护数据贡献方的原始隐私数据的前提下,协作完成特定的机器学习任务。
在早期,国内将“Federated Learning”翻译为“联合学习”,后来又改为“联邦学习”,因为如果用户是个人,确实是把他们的模型「联合」起来学习;而如果用户是企业、银行、医院等大数据拥有者,这种技术则更像是将诸多「城邦」结合起来,「联邦」一词会更为准确。
来自同盾科技的李晓林教授是国内最早推动联邦学习的学者之一。李晓林教授是同盾科技合伙人、人工智能研究院的院长。曾任美国佛罗里达大学终身正教授、计算机工程部主任,作为创始中心主任,牵头创立了美国首个国家级深度学习中心NSFCBL(佛罗里达大学、卡内基梅隆大学、俄勒冈大学、密苏里大学四校联盟),主要研究方向包括机器学习/深度学习、智能平台、云计算、安全与隐私等等。
在联邦学习的基础上,李晓林教授提出了“知识联邦”的理论框架,包括信息层、模型层、认知层和知识层,首次将认知和知识引入隐私计算范畴,目标是实现下一代可信、可解释、可推理、可决策的人工智能。为了提升深度学习模型的可解释性,研究者在知识图谱、因果推理等方向进行了深入研究,推敲数据的真实性、区分数据与事实的关联性是因果解释中的重要一环。
据悉,同盾科技还于2020年牵头成立了知识联邦产学研联盟(AKF),联合浙江大学、中科院医学所、复旦大学、哈尔滨工业大学、华东师范大学、百度大数据实验室、360集团、平安科技、明略科技等众多学界、业界单位组成。促进相关主体之间的交流和深度合作,促进知识共享和供需对接,形成优势互补,有效推进知识联邦学术理论、工程技术、标准化、产业链快速发展,联手各方力量共同构建知识联邦优质生态,切实解决企业、高校、研究机构的现实问题。
以下是AI科技评论对李晓林教授进行采访的内容整理:
1、与联邦学习相比,“知识联邦”进行了哪些拓展?为什么要加入“认知层”与“知识层”?
联邦学习是知识联邦的一个子集,专注于数据分布的联合建模。知识联邦关注的是安全的、数据到知识的“全生命周期”的知识创造、管理和使用及其监管,支持智能决策,致力于推动下一代人工智能,而不仅仅是一个安全的联合建模。
2、与联邦学习相比,知识联邦的优势体现在哪些方面?实现知识联邦需要突破哪些困难?
与联邦学习相比,知识联邦一个重要的技术前提是数据的知识化,将数据转化成为模型策略知识,再对分散的知识聚合。我们希望通过知识融合或推理,让知识在知识网络中自由流动,挖掘出更全面、更有价值的知识,实现智能决策。
而知识驱动的联邦技术则是在数据联邦的理念上进一步升华。从定义上来说知识联邦是一个更为宏观的理论体系和技术框架,将数据、信息、知识、智慧纳入到一种金字塔形的层次体系。雷锋网
如何确立一个可信的第三方,充当合格的协调者和监管者;如何保证智邦平台中数据提供者的公平性,如何解决恶意参与者的问题,怎么完善各参与方的激励方式,激发各方的积极性和配合度,以及如何让参与各方均无条件认可平台的安全性等问题,都是在未来需要我们克服的问题。
3、“知识可创可共享”,怎么理解这句话呢?
举个例子,在个人信用风险评估时,可能会需要个人的收入情况、消费能力、贷款情况以及其它信息,而这些信息可能分布在不同的机构中。如果我们想得到信用风险评估这个知识,就需要联合相关机构参与任务,建立相应的任务联盟。尤其是那些中小微企业,自由数据量少,需要借助外部数据才能开展业务,通过联邦平台建立小范围的任务联盟就可以有效解决这个难题。雷锋网
这个过程中,既实现了“新”知识的创建,又实现了知识的共享,更重要的是缺乏数据的中小微企业也能从中分享到属于自己的知识。雷锋网
从技术角度看,这个过程是怎么实现的呢?在知识联邦框架中,一旦初始知识以某种方式构建并保存在知识库中,联邦将进入一个更高层次的阶段,即知识级联盟,多个知识库中的初始知识将进一步协作并演化为更重要的知识。为了保证知识能够在不同的知识源之间方便地流动,首先要通过连接所有代表独立知识库的知识节点来构建知识网络。简单地说,知识层联邦实际上是希望通过知识融合或推理,让知识在知识网络中自由流动,挖掘出更全面、更有价值的知识,这对管理者或管理者做出正确决策有很大帮助。
4、关于“知识联邦”的研究,学术界与工业界的发展现状与趋势如何?
虽然目前还没有完备的理论突破来实现AI 3.0,学术界和工业界也没有统一的看法,但是可信AI的理论已逐渐成为全球学术界、产业界共识,我们可以明显看到当前越来越多的企业和学术研究机构聚焦到这个领域。
我们观察到人工智能各个阶段的飞跃间隔大约30年。我们目前所处的时代AI已拥有强大的感知能力,以深度学习和强化学习为代表,AI获得了及其广泛的应用和社会影响力,我认为在下一代AI时代,知识和智能决策将成为核心,知识联邦一定会扮演重要角色。
5、您能否介绍一下知识联邦如何促进可信AI生态系统的发展?
首先是,冲破数据孤岛,知识联邦用“小数据”实现“大智能”当前大背景下,数据孤岛是制约AI发展的重要阻碍,公司内部和子公司的部门之间存在很多数据壁垒。不同机构之间的壁垒问题更甚。消除各行业的数据孤岛,创新模式让数据协作是未来的趋势,而在此之间,知识联邦可以发挥重要作用。
其次是,知识联邦不是一种单一的技术方法,是一套理论框架体系,是人工智能、大数据、密码学等几个领域交叉融合的产物,使其可以以更合规的方式来打破数据孤岛,在利用数据的同时,做到保护数据隐私。
知识联邦的目标就是打造数据安全的人工智能生态,通过数据安全交换协议来有效利用多方的数据,进行知识共创、共享和推理,实现数据可用不可见。
6、您如何理解可信AI生态系统对于人工智能发展的意义?对于以深度学习为基础的人工智能发展逻辑会带来哪些新的变化?
随着日新月异的飞速发展,人工智能的不可解释、存在攻击漏洞等安全问题正日益对法律、伦理、社会等方面不断提出挑战。在此背景下,“可信AI”的理念逐渐成为全球共识,成为未来人工智能产业健康发展的必由之路。从这个意义上将,人工智能发展到当今阶段,可信AI生态系统的出现是必然的。
发展逻辑上,可信AI 将可实现储备更多知识,并且能够做出更加复杂、自主化的智能决策,这也对“数据使用”提出了更高的要求。