雷锋网按:医疗数据不易处理,是这个行业公认的难题。
因为它涉及巨大的、不可交互且敏感的文件。一百万个患者的数据集很容易达到千兆或更多,尤其是涉及到流程复杂、需要用大量药物或有诸多后续检查的疾病时,数据会变得更加难以利用。
此外,一个患者的数据,在同一个医院的不同科室,往往并不互通。
即使患者在同一个医院,他们有时候不得不在不同的科室多次做相同的工作(如检验/诊断/记账),其背后的原因就是各个科室的数据并不打通,都需从零开始。
MITRE公司健康经济学负责人Robert Lieberthal说:“医疗数据是我们社会中最敏感的数据之一。考虑到个人健康状况,以及根据HIPAA和其他法律保护医疗保健数据的需求,使得院方难以进行预测模型的分析,所以难以改善流程。”
这个问题非常关键,适用于有关医疗保健的财务数据如总索赔、索赔金额、议定费率、帐单代码等,这些数据通常是专有的。
保险理赔数据系统通常无法与临床(电子健康记录)数据交互打通操作,这使得像医疗费用单之类的财务信息难以提前或在护理期获得。
然而,患者、医疗服务提供者(医院),甚至是付款人(保险公司)通常得等到提供完护理后,才能知道特定服务的账单费用和已支付费用。财务数据远远落后于临床数据。
此外,患者常常不愿或无法承担其特定疾病的费用或家庭的护理费用,众包和其他用于在患者组内共享信息的方法是不划算的。结果导致,由于患者自认为无法负担得起医疗服务,他们可能会放弃医疗服务。
他说:“急诊和预防再入院,这些环节的改善其实与医疗保健数据和医疗信息化直接相关。”
“缺少信息和数据打通,也增加了患者、院方和保险公司的诊疗成本,这意味着我们在付出更多的情况下,得到的东西反而更少。因此,患者也会感到困惑,在很多情况下,他们对自己的数据缺乏所有权感到愤怒,需要带着自己的病历从一个医生到另一个医生。”
医生也抱怨把大量时间花在EHR中去记录数据,而不是与患者互动,负担越来越重。
当行业需要更多的医生、护士和其他卫生专业人员时,而在老年人口居多以及基础服务较差的地区,这种现状正在使得越来越多的专业人员离开医疗行业。
那在这系列问题面前,如何利用好数据去解决问题?
Lieberthal表示:“合成数据是解决的思路之一。”
合成数据指的是由计算机使用人为手段生成的数据,而不是从现实世界的环境中测量和收集的数据。这一数据是匿名的,并且是基于用户指定的参数而创建的,因此可以尽可能地和现实情境下的数据有着相同的特征。
创造合成数据的方式之一是使用真实数据,但是需要去除数据集中能够识别出个人信息的方面,如姓名、邮件地址、社保号码和地址,从而确保数据是匿名的。生成模型能够从真实数据中学习,并能创造和真实数据极为相似的数据集。随着技术的进步,合成数据和真实数据的差距也在缩小。
“我们知道人工合成,通常是完全由人工收录的患者记录和理赔数据组成。它与部分取消标识的数据或已检查或删除变量以限制受保护的健康信息变量的数据集不同。合成数据并不基于患者记录,因此永远无法链接回特定个人或其个人费用数据。”
Lieberthal解释说,取而代之的是,它基于现实世界的数据进行开发,校准和验证,以使其成为现实。
他继续说:“一旦创建了合成数据,就可以通过缩小数据大小或其复杂性来加以改进。合成数据还可以用于模拟未来的卫生IT系统,例如完全可互操作的数据或集成的临床/ EHR和理赔/保险人数据。”
Lieberthal补充说,合成数据通过从头开始设计来解决问题,而不是证明报销或简单地替换纸质记录,从而解决了现实世界中医疗数据的问题。
“研究人员、企业家都在创建综合性病历,以回答诸多重要的医疗保健问题。MITRE正在研究Synthea,这是一套开放源代码的完全综合的EHR数据。Synthea基于针对各种情况的现实患者过渡情况,用于创建整个州以及重要疾病和人群的综合队列,例如心血管疾病,退伍军人人群和晚期肾病。”
他解释到,在沙盒环境中使用合成数据可以使开发人员、临床医生和其他人员将EHR系统和其他健康IT工具部署到床头之前对其进行测试,从而获得更好的解决方案,而不会受到现场alpha或beta测试的损坏。
Lieberthal说:“合成数据的主要组成部分在于互操作性,临床和索赔数据的集成,以及围绕合成数据构建的开源社区。存在于合成数据源中的可互操作的,完整的患者记录类型在现实世界中很少存在,至少在美国不存在,这打破了不同提供商组之间存在的孤岛。”
他补充到,患者就诊的临床结果与费用之间的联系在实践中很少存在,因此能够评估综合数据中的这些权衡取舍,可以衡量提高护理价值-费用之间的关系。
他说:“最后,开放源代码社区导致可以解决此问题的开发人员范围更广,从而产生了新的想法,并且可以解决这些难题的人也更多。”
他引用了很多数据,综合数据反映了乔治·博克斯的观点,即“所有模型都是错误的”,同时提供了“对现实世界中发现的模型的有用近似”。
他解释说:“类似地,合成数据可能不是对诸如成本和临床质量之类的现实结果的100%准确描述,而是对这些变量的有用近似。此外,合成数据正在不断改善,验证和校准等方法将继续使这些数据源更加现实。”
特别是,许多合成数据源(例如Synthea)的开源性质意味着,与从医疗服务的实践和报销中生成的数据相比,它更易于审查,分析和改进。
Lieberthal说:“从某种意义上说,合成数据代表了当前的卫生IT标准,同时也融合了卫生IT所能达到的最佳水平。” “例如,Synthea和其他工作通常使用快速医疗保健互操作性资源规范(FHIR),这是一个不断发展的公认的互操作记录标准。”
也就是说,合成数据通常使用用户友好的界面来呈现,例如用于表示护理途径的图形标准,从而允许非开发人员访问综合数据工具。
他总结说:“从其他方面来说,合成数据看起来很像真实世界的数据,并且被用于各种环境中的开发- 临床质量度量 和SyntheticMA,即马萨诸塞州的患者数据。”
“因此,合成数据现在非常流行,以至于可能没有适合所有合成数据的特征。相反,几乎所有使用实际医疗保健数据的情况都可以并且可能由合成数据表示。这样就可以建立一个低成本,低负担的测试环境,然后可以使用实际数据进行验证。”
via Healthcare IT News 雷锋网雷锋网雷锋网