2022年4月,由雷峰网《医健AI掘金志》主办的医疗隐私计算·云峰会开幕,从技术普及与案例剖析的初衷出发,邀请一批隐私计算企业CXO,讨论隐私计算的技术路线和在医疗场景下的实际应用前景,共话产业的未来趋势。
锘崴科技创始人、董事长王爽教授发表了题为《隐私计算赋能医疗健康大数据价值流转》的演讲,就医疗大数据隐私保护的背景、医疗大数据安全共享解决方案与底层技术、医疗大数据隐私保护的应用场景等话题进行了分享。
王爽教授是四川大学华西医院特聘教授、同济大学附属医院客座教授。回国之前,王爽教授在美国加州大学圣地亚哥分校UCSD医学院做教职。
过去十余年,王爽教授及其团队一直专注医疗大数据隐私保护相关研究。2014年,王爽教授创办了目前最早也是规模最大的iDASH国际隐私保护计算大赛;2017年,牵头成立了国际同态加密标准委员会,推动制定相关国际标准。
王爽教授表示,医疗大数据的隐私安全保护需要进行全局性的思考。
“首先,我们要弄清楚数据的类型是什么,数据在哪里,由谁在用以及如何在用,从而实现对数据整体安全的保护。在保护过程中,我们既需要满足合规的能力,又需要数据保护的能力。
他认为,隐私计算正是一种能够辅助实现从形式合规到实质合规的全流程医疗大数据安全的技术手段,并且它是目前最优技术解。
以下为王爽教授的演讲内容,雷峰网(公众号:雷峰网)《医健AI掘金志》作了不改变原意的编辑及整理。
数据正加速向“生产要素”转化。
近些年,国家层面相继出台了数据要素化市场配置的政策文件,今年4月10日又推出了加快建设全国统一大市场的相关意见,这些政策都明确要加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、共享开放、安全验证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。
在地方层面上,多个省、市也推出了聚焦数据要素领域的相关法律法规,并主导成立地方数据交易中心,推动数据要素实现市场化,加快数据资源共享开放进程。
在数据要素市场发展过程中,存在着一系列问题和挑战。
首先,是法律合规风险。明文数据一旦可见就可能被无限复制,同时暴露数据中所包含的个人敏感信息,以及数据所对应的某个用户或数据提供方的商业机密。
其次,是数据的不可控。数据一旦被泄露或复制,将导致超范围使用甚至被转卖,无法控制其用途、用量,因此也存在数据滥用的风险。
此外,当明文数据被滥用,打破市场供需关系后,会导致数据价值无法定价,也无法形成“要素化”的概念,无法产生大规模的市场流通,数据要素的价值也将无法充分体现。
在国家层面上,数据隐私保护也受到重视,法律法规日趋严格。
2021年9月正式施行的《数据安全法》提出国家将对数据实行分类分级保护,开展数据活动须履行数据安全保护义务、承担社会责任。
2021年11月正式施行的《个人信息保护法》明确要求保护个人信息权益,规范个人信息处理活动,保障个人信息依法有序自由流动,促进个人信息合理使用。
如何在数据开发利用与安全保护上实现平衡?既要能“放得开”,又要“管得住”,传统的数据中心化模式已经不适应当前市场需求,需要引入新技术、新方法适应数据在共享、开放、利用中的隐私保护问题。
传统数据隐私保护是采用脱敏的方式。
但脱敏后的数据并不等于匿名化数据。过往研究发现,美国HIPPA Safe Harbor脱敏后的数据中,每15000人里依旧有两个病人的信息可能会被恢复。
2020年,我们与国家癌症中心合作,完成了全国最大规模的脱敏数据风险评估,横跨34个省、市、自治区、直辖市,共涉及7000多万病人的脱敏信息,其中大约0.01%病人的脱敏信息,能够结合背景知识恢复出病人的身份。
因此,脱敏只是对数据的保护与约束,并不等于完全没有风险,它只能够将风险控制在一个较低的范围内。此外,数据脱敏很难有效处理医学相关的基因数据、影像数据的隐私保护。
根据《个人信息保护法》规定,匿名化数据是指经过处理后无法识别出自然人的数据。参照前例,脱敏数据并不等价于匿名化数据,所以同样受到《个人信息保护法》的保护。
因此,医疗大数据的隐私安全需要进行全局性的思考。首先,我们要弄清楚数据的类型是什么,数据在哪里,由谁在用以及如何在用,从而实现对数据整体安全的保护。
在保护过程中,我们既需要满足合规的能力,又需要数据保护的能力。
所谓合规能力,是指从数据采集源头保证其合规性,对此,现有法律对包括知情授权、数据使用协议、数据使用范围等在内的要求都有明确的规定。
同时在使用过程中对数据进行分级分类,通过数据日志监控匹配是否存在超范围使用,使用后需要进行数据安全审计与可信存证。
在这个过程中,需要一些技术手段来保证从数据采集到使用的合规性,隐私计算正是一种能够辅助实现从形式合规到实质合规的全流程医疗大数据安全的技术手段,并且它是目前最优技术解。
医疗大数据安全共享解决方案包括几个层面,首先是支持安全合规高效。通过隐私保护计算结合区块链等其他技术,提供安全合规高效的医疗大数据,在“可用不可见”的情况下融合多源数据,实现联合分析。
其次是支持医疗监管决策。通过结合区块链实现数据使用全流程可追溯、可监管,对数据的用途、使用方、使用期限、使用范围等都能进行非常细致的控制与监管,为监管部门决策提供数据支撑。
第三是支持医疗数据开放。通过医疗大数据价值转化平台,实现医疗数据跨医院甚至是跨境合作。
通过以上几个目标,该方案还可以支持医疗产业应用,形成围绕医疗产业的聚合,包括在科研、制药以及保险等相关领域的应用。
医疗大数据安全共享解决方案具备几个核心能力,第一是隐私合规的多维检测。
在医疗大数据从形式合规到实质合规的过程中,对数据知情授权、使用协议、数据的使用范围、数据使用后的销毁等环节进行自动化检测,保证全流程的数据合规,这是医疗数据使用中的先决条件。
另一个核心能力则是数据的分级分类。对不同级别和不同类型的数据,我们可以采取不同的安全措施,充分利用不同技术能力范围满足法律监管的需求和敏感信息保护的需求。
这里涉及到隐私保护计算。我们经常提到的隐私保护计算有四个类型的底层技术。
其中一种技术是联邦学习(FL),是指在各个数据源不需要分享个体数据的情况下,通过交换统计信息完成多中心的联合计算,实现“数据不动模型动”的虚拟数据融合。
联邦学习的安全假设条件是在不交换个体数据的情况下,只需要交换一些统计信息。然而,在很多情况下这些明文的统计信息通过推理或者逆向工程的方式,可能推演出数据源的敏感信息,造成隐私泄露。
基于以上考虑,我们提出了安全联邦学习的概念,通过结合联邦学习、同态加密、多方安全计算、可信执行环境等技术,实现数据建模过程中的数据隐私保护。数据源本身,个体信息交换的统计量,模型的梯度,最后生成的全局模型,以及统计分析的结果,都可以在密态下完成计算,并且只有授权用户才能够拿到对应密钥,获得计算结果。
除了联邦学习外,还有一些其他的辅助技术,比如上文中介绍到的同态加密(HE),它是一种基于软件的密码学技术,能够在加密数据上进行运算。同态加密技术在密文下所做的加法和乘法运算完全等价于在明文下进行计算,因此一些计算任务能够在密文下利用同态加密技术完成,从而保护原始数据的隐私安全。
同态加密设计之初是用来解决数据的外包服务问题,包括数据的储存外包与计算外包。
数据拥有方将自己的数据利用同态加密进行加密后,将私钥保留在自己手中,将公钥加密后的数据放到公有云之类的第三方,即可进行储存或计算。当有多个计算方或多个数据源参与时,则需要第三方生成密钥。
多方参与情况下的密钥管理问题,正对应我们上文所说的基于数据分级分类采用不同安全级别的保护措施。
多方安全计算(MPC)是指多个数据参与方以乱码电路或秘密分享的方式,在不需要交换明文数据的情况下,共同完成某项计算的密码学解决方案。
其中最常用的是基于乱码电路实现的安全两方计算,超过两方的计算则通常以秘密分享的方式实现。
在多方安全计算中,基本的安全假设是参与方是不能进行窜谋。因此如果在某些应用场景中参与计算的几方之间不足以信任,可能会存在窜谋风险,那么多方安全计算就不适用。也就是说,对于非常机密的数据,仍需要其他的额外技术提供保护。
可信执行环境(TEE)是指在基于硬件防护能力的隔离环境中进行计算,实现数据安全和隐私保护功能。在CPU或GPU空间中形成的隔离区域中运行的代码、程序、数据均不受外界干扰,只有授权用户方可使用。
可信执行环境提供了一套验证机制,使用户能够远程确定所使用的可信执行环境安全性,以及确保在可信执行环境中运行的代码和数据的完整性和安全性,从而实现对某些敏感数据在隐私保护的情况下进行运算。
可信执行环境的优点在于,基于硬件模式,与同态加密和多方安全计算相比能够支持更大规模的复杂运算。
在上述四个不同技术领域中,我们都完成了一些早期工作。
在联邦学习领域,最早在2012年我们将联邦学习应用于在线多中心医疗数据在“可用不可见”情况下的联合分析,后面会介绍一个相关的案例。
之后联邦学习也被谷歌应用到移动互联网领域,以及被微众银行应用到金融科技领域。
可信执行环境最早于2009年提出,大规模的商业化应用则是2015年底英特尔发布支持SGX功能的CPU之后。
我们是全球最早与英特尔达成深度合作的两个机构之一,通过可信执行环境完成了全球首例多中心跨国罕见病研究,荣获了英特尔杰出贡献奖。
同态加密领域的概念早在上世纪七八十年代就已提出,但是直到2009年,第一个全同态算法(即可做密文下做加法和乘法运算的算法)被Craig Gentry提出。
我们团队在2015年首次将同态加密应用到多中心罕见病研究中,解决了基于同态加密的多中心情况下的基因数据比对和统计分析问题。
2017年,我与ISO、美国国家标准局(ANSI)、IBM和微软等机构共同创办了国际同态加密标准委员会,推进同态加密相关标准制定。
多方安全计算中最著名的是姚期智教授提出的百万富翁问题,它解决了安全的两方计算,之后在1987年被拓展到多方计算。我们在2016年将多方安全计算技术结合联邦学习运用到了国家级医疗网络数据共享过程中。
对于应用平台架构,我们涉及到医疗机构云、数据中心、省市健康云、专病网络等数据提供方,支持结构化数据、非结构化数据、处方数据、基因数据、影像数据等不同类型的数据,同时也支持卫健委等相关监管机构可通过区块链进行数据使用全流程的监管和审批。
在对外输出能力上,支持临床相关应用、大健康应用、健康管理、公共卫生以及科研制药等不同方面的应用。
医疗大数据隐私保护的场景和应用有以下几种。
一种是多中心目标条件隐私查询。一个病人或者一批病人在医院的临床数据,结合基因检测中心的基因数据或者影像中心的影像数据,可以实现多模态模型研发。
在不同机构之间进行病人数据匹配时,在纵向联邦学习中,我们要跨不同的医院、机构,找到同一批病人的数据进行支持;在横向联邦学习中,提高样本量时需进行去重,去掉在多个中心里面可能重复的病人,避免重复的病人记录影响模型建立。
除了精准匹配外,模糊匹配在医疗领域中亦有应用。临床实验入组时,需选择参考组和被试组,不同的组别对应不同条件,此时需使用模糊查找,根据某一模型和权重,基于用户的不同生理指标,判断这个用户是否满足某一个入组条件,找到相关目标用户。这是多中心目标查找的隐私计算在医疗领域的主要应用。
另一个常见的应用是多中心隐私数据分析、建模及推理。在某些疾病研究中,单体大数据的数据量或者单个医院的数据维度是不够的,我们需要更大的样本量提高模型的统计效果,或者实现更精准的病人画像,因此需要结合多个中心进行联合计算。
这个过程中,如果不直接交换个体数据,使用隐私计算即可实现在数据“可用不可见”的情况下,通过虚拟数据融合实现多中心建模。
接下来,介绍我们在医疗大数据隐私保护领域做过的案例。
下图是我们在2012年开始做的全球首创的隐私保护超大规模医疗科研网络,通过隐私计算覆盖了美国3000多万病人,这些病人来自17个医疗系统,覆盖200多家医院。
我们做的是比较效果研究。具体来说是,探究不同药物对于同一个病人,或是不同手术方法、器械对于同一种病人所产生的不同效果,从而帮助制定更好的临床指南;
探究同一药物对于不同并发症的病人产生的效果,或是同一个药物不同剂量时的相关效果或副作用,以及药物适应症的扩展。这些场景可以通过基于多中心的研究实现更大样本量、更具有统计意义的结果。
但医疗机构受限于隐私保护政策的限制,以及医院自身对于数据安全的顾虑,无法直接形成大规模数据迁移,将数据都汇总到公共区域。
于是我们通过联邦学习方式,将计算节点部署到各个医院,然后通过一个中心节点将比较效果研究的请求发送到各个计算节点,在本地完成运算后,通过交换加密统计信息完成基于大规模数据的临床研究。
基于在国外完成的成功案例,我们在国内也将相关的研究范式应用到了不同的癌症领域,下图案例是我们在消化外科领域的尝试。
我们横跨24个省、直辖市、自治区的60多家医院,覆盖数万名相关病人,在数据库中进行上述比较效果研究,有关不同的器械、术式对胃癌、肠癌等消化外科病人治疗过程中的复发症以及生存率等分析,能够更好地为临床治疗提供帮助,同时也为药厂与器械厂商在相关药物器械的研发提供临床证据。
下图是我们2016年做的隐私保护跨国罕见病分析项目。
罕见病的痛点有两个,一是由于其罕见性,许多医生缺乏足够的经验在第一时间做出正确诊断。由于医生缺乏对罕见病的了解,容易出现误诊现象。
本案例中研究的罕见病是川崎病。川崎病主要发病人群是儿童,症状包括发烧、草莓舌、眼睛发红、身上起疹子等,大多数情况下会被误诊为与发烧相关的疾病,错过最佳治疗时间。
如果不能及时治疗,60~70%的患儿可能会发展成严重的心脏并发症,甚至危及生命。但是,如果能够在患病早期完成诊断,就可以针对此病症有非常好的干预和治疗方法。
罕见病的第二个痛点是每家医院的数据量都极少,难以通过单体数据源实现对于罕见病致病基因的研究。
通过多中心合作可以找到满足样本量的病人数目,从而帮助医生能够更好地确定与疾病相关的致病位点。类似于新冠疫情中使用核酸检测快速定位某个人是否感染新冠病毒。
如果能够找到罕见病基因与疾病的相关性,即可设计试剂盒或临床辅助诊断系统,帮助医生进行罕见病诊断,在患病早期进行干预和治疗。
此外,由于是罕见病,基因变异位点通常比较罕见,因此敏感性也更高,这些病人的数据隐私需受到更好的保护。
基于以上几点,我们通过隐私计算为儿童罕见病,特别是川崎病提供了整套解决方案。
我们联合美国雷迪儿童医院、英国帝国理工学院以及新加坡基因研究所,通过虚拟化容器的方式,在每家医院的数据中心进行了本地计算节点的部署,本地计算节点通过虚拟化容器将底层跟川崎病相关的疾病数据,包括基因数据和表型数据接入系统,即可实现本地计算。
将本地计算生成的统计信息进行加密,在密态下完成全局模型构建,通过反复交互实现统计模型训练,获得最终结果,从而基于大样本获取更具有统计意义的信息。
在三个国家的多所医院中,共找到250个满足条件的家庭。研究中,共使用了150个个体数据,每个个体有70万个基因变异位点,可在秒级内完成跨国隐私保护研究。
这项研究成果获得了英特尔杰出贡献奖,并发表于核心生物学期刊。
基于在国外的研究成果,我们回国完成了全国首例基于隐私保护的跨多个省市的全基因组分析系统。
其中涉及的疾病是强直性脊柱炎。通过基因分析,我们能够尽早确定某些基因变异位点与强直性脊柱炎的相关性,进行疾病的早期预测和诊断,从而实现更早干预、治疗,减缓病情。
在这项研究中也遇到了之前类似的问题——单体医院的数据量非常有限。我们与清华大学、四川大学华西医院、上海长征医院、郑州大学第一附属医院、安徽医科大学第一附属医院5所机构合作,将锘崴信一体机部署到医院信息科,然后医院将相关数据接入一体机,在防火墙后完成本地病人基因数据和表型数据分析。
每家医院都提供了将近1000例的患者与非患者数据,我们组成了参考组和被试组做对比性分析。
研究成果体现在以下几方面。
首先,我们验证了计算精度。在实验数据上,虚拟数据可以实现等价于中心式计算。在计算时间上,由于多个中心可以同时并行计算,等价于将数据集中后的明文计算。虽然计算在密文下运行,但是效率依旧非常高。
同时,该研究也验证了获得的疾病位点与中心计算完全一致。由于通过隐私计算触达到了更多的数据源,我们实现了高一个数量量级的统计意义,研究成果获得上海市科技进步奖一等奖。
此外,我们也做了一些其他应用,比如通过隐私计算帮助儿童罕见病网络进行带有隐私保护的查询和临床辅助诊断系统的应用,通过隐私计算实现对于输入系统的患儿基因信息、临床诊断信息等查询条件的保护。
我们提供了一套自然语言处理(NLP)工具,能够将非结构化的医嘱信息进行自然语言处理,提取出与表型相关信息,将其映射到人类表型本体(HPO)上。
通过以上结构化数据,即可在加密状态下与全国范围内罕见病病人的数据进行匹配。
匹配过程并非简单的精准匹配,而是在不同基因位点对应不同权重和表型相关性的情况下完成匹配,最终返回加密结果,告知医生或患者基于当前的基因和表型可能确诊的疾病或是潜在疾病。
在整个查询过程中,查询条件与查询结果不存留在被查询方,同时也保护了被查询方的数据和匹配模型,实现双盲下的数据查询。
除以上应用外,我们还将隐私计算应用到了新发和突发传染病智慧化多点预警突发系统中。
如今,疫情在多地爆发。如果能够借助于大数据,将病人在不同医院的就诊数据、轨迹信息、药房购药信息、病人自主上报的信息、病人在互联网上搜索的信息构建一个多点触发预警的深度学习模型,就可以在突发传染病刚刚萌发时实现早期干预。
然而在实际应用中,由于数据隐私、数据实时性、大数据计算资源等诸多限制,上述各种数据往往无法简单汇总到一个数据中心实现中心化的模型构建和决策。
通过隐私计算技术在不同的数据源部署计算节点,即可充分利用分布在不同地方的数据,在隐私计算下基于更多维度的信息构建预警模型。
基于预警模型,我们利用实时观测到的数据进行预警,有助于卫健委等部门进行传染病的管理和管控。
此外,医健AI掘金志也上线了王爽教授的演讲视频,感兴趣的朋友可以关注公众号 医健AI掘金志,对话框回复关键词“王爽”,即可回看。雷峰网雷峰网