近日,雷锋网医疗科技·未来投资云峰会揭幕。
本次峰会邀请到红杉中国、软银中国、高榕资本、联想创投、点石资本、磐霖资本、启明创投、国科嘉和、远毅资本的多位顶级观察者,以云峰会形式,从专业投资人的角度剖析医疗大数据、药企创新服务、医疗机器人等多个医疗科技新领域的投资逻辑和项目经验。
来自远毅资本的唐轶男以《AI病案质控在DRG支付和医院精细化管理领域的应用》为题,发表了主题演讲。
她表示,随着DRG支付方式的逐渐落地,医院将从“点餐”模式向“自助餐”经营模式进行转变。在此背景下,医院病案数据的重要性呈指数级上升,因为病案数据起到了一个连接临床系统和支付体系的桥梁作用,承载了医保支付绩效考核多层次的重任,关乎医院的面子和里子。
然而,医院病案数据的质量却面临很大的问题,因此,数据驱动的精细化管理是未来的一大方向,以“质控”为核心的AI系统将为医院带来巨大的经济价值和管理价值。
感谢雷锋网的邀请,我是远毅资本的唐轶男。
从三年前起,我开始关注医保支付改革。当时特别兴奋,因为只有变化才能给新事物带来成长的机会。作为一个早期的医疗投资机构,我们的任务就是在一个赛道成为行业共识之前,识别并提前布局。
未来十年,医疗行业最大的一个变量就是医保改革。幸运的是,通过对DRG的研究,我发现了一个新的赛道——AI的病案质控。
首先,先介绍一下远毅资本。
我们是一家专注于医疗早期风险投资的基金,有四大投资方向:流通触达、保险科技、器械设备和精准诊疗。其中,保险支付和流通触达是远毅资本比较独特的两个投资方向。
下面是我们的一些代表性投资企业,很多已经成为细分赛道的领先者。
首先,我想谈谈为什么会出现新的赛道
医保支付改革也就是DRG,未来5年将从现在的模拟运行走到更广泛的全方位落地,这已经成为医疗行业的明确共识。
按照目前采用按项目付费的体系,医院赚的是药品、耗材加成的钱。理论上来说,这种体制会引导医院产生过度医疗的行为。
而目前正在推广的DRG,也就是按病种付费,未来会给医院的经营模式带来一个底层的颠覆。在DRG的模式下,会根据患者的疾病严重程度以及诊疗过程的资源消耗情况,对医疗服务进行一系列的标准化分类,产生上千种DRG的组别。
如果一个阑尾炎患者所在DRG组别的支付标准在1万元,那么医院会尽量减少药品、耗材等成本的浪费。该用的还得用,但是不需要的就尽量不用。如果只花掉6000元的成本就可以治好病,那么节余的4000元可以给医生发工资或者发展新的技术。
做一个通俗的比喻:医院将从点餐模式向自助餐经营模式进行转变。
之前按项目付费的方式,医院没有经济风险,做什么都有加成的收入,所以不会亏损。但等到DRG以后,医院会面临更大的经济风险。
亏损的原因通常有两类:
第一类就是治疗的成本超支,由于疾病的复杂性或者医疗质量问题。例如,术后感染导致患者多住一个星期院,费用肯定超支。一个5万块钱的DRG分组,如果医院的治疗花费在1.5万到15万这个区间内,通通都只能拿到5万块钱的总收入。而这5万是所有的自费部分加医保部分的总和。
所以,只要费用落在图中绿色部分,医院亏损的风险就很大。而剩下的两端是费用极低和极高的部分,会按项目结算的方式来覆盖一些比较少量的特殊案例。
第二种亏损是由于病案质量和编码的问题,这种就比较可惜。一个8万元的治疗只在病案上体现出了5万元的难度,从而进入了一个更低的DRG组别。无论医院怎么缩减成本,这个病例大概率都会严重亏损。
有院长表示,在DRG的大背景下,病案数据的重要性呈指数级上升。因为病案首页和医保结算清单承载了医保支付绩效考核多层次的重任,关乎医院的面子和里子,生存还有发展。病案数据起到了一个连接临床系统和支付体系的桥梁作用。
在按项目付费的模式下,医院什么样的数据是最准的?肯定是费用数据。同样的道理,在未来DRG付费的模式下,只有准确的病案才能带来准确的支付。
病案数据的质量现状如何?
中国的大三甲医院,临床质量在世界范围内都很高,但临床质量和数据质量是一个高度不匹配的状态。而未来的医保支付是按照数据质量来付。
数据质量鸿沟产生的原因是什么?
医院的临床质量是高年资医生、主任们来把关,但是写病历的都是谁?是低年资医生甚至是规培生,往往无法在病案中体现完整的临床思维过程。从病案到病案首页、编码,信息会层层失真。临床质量提升10%是非常难的。但是在数据生产的过程中,损失20%-30%是极为简单的,这是目前普遍存在的状态。
因此,无论从医保还是医疗质量评价的角度,数据质量的提升都是关键中的关键。
除了支付,病案数据也是医院精细化管理的核心情报之一。医疗服务是高度非标的,医生群体是一个知识密集型的专家组织,这两点因素会加大医院精细化管理的难度,企业常用的流程管理方法不适合医疗管理。
因此,数据驱动的精细化管理是未来的一大方向。
在新的支付体系下,医院的精细化管理需求会从之前的“nice to have”变成一个“must have”。病案数据包含了医疗服务过程所有的核心信息,将会成为管理决策的核心依据。如果数据不准确,会带来一系列的问题,打击临床工作的积极性。所以,只有基于准确的数据才能推动高效的管理。
DRG推广后,又会对医院的发展产生什么影响?
目前,中国大、小医院并没有在CMI指数,也就是疾病的难度系数上拉开差距,有两方面的原因:首先,分级诊疗并没有真正落地,大医院看了很多的常见病;其次,头部医院的临床水平没有在病案数据上得到准确的体现。
但是,DRG支付已经在美国运行了30年,医院间的CMI指数以及发展的差距会不断加大。有些医院实现了跨越式发展,有些医院最终关停,病案数据质量起到很关键的作用。
在数据中,如果能找回5%的CMI损失,就可以帮医院提升5%的营收。国内三甲医院的营收普遍在十亿甚至几十亿的量级,5%将会是一个巨大的数字。如果把这些钱投入到专科建设、引进新技术、人才激励等方面,就可以帮助医院实现持续发展。
AI病案质控是什么,能给医院带来怎样的价值?
首先,聊聊什么是病案。病案是在医疗过程以文字的方式再现患者在住院期间完整的病情变化以及所有的诊疗过程。因此,想要做病案质控,除了医院的财务数据,需要把医院几乎所有的核心临床数据都要接进来。
第二个基础的概念是编码员编码。
编码员这个工作很有意思,是目前少有的一项没有任何电子化工具辅助的工作。
编码员的标配就是三本厚厚的字典,外加一个保温杯,每天坐在编码科里编码,工作方式也极为原始:阅读病案、翻工具书、查询编码、验证编码,每份病案首页都有少则几个、多则几十个的编码需要确认,工作强度极大。
临床技术是不断发展的,所以编码并不是一成不变,它会定期推陈出新,进行版本迭代。
目前,国际上的版本已经更新到了ICD11,编码的总体数量和复杂度又大幅增加。
根据国家病历质控中心的病案大数据来看,全国平均首页数据的完整率为71.93%,费用信息是完整度最高的,接近90%;诊疗信息的完整度最差,不到60%。其中,低编的现象普遍存在,占总体错误的8成以上。
低编意味着什么?意味着临床的成绩被低估,医院的收入受到损失。
高编发生的频率比较低,但未来随着DRG的正式落地会有一些变化。高编不代表医院可以获益,如果被医保认定为骗保,不仅会遭受拒付,还会受到罚款。因此,准确的编码是医院实现收益最大化的最好方式。
顾名思义,病案质控就是对诊疗过程进行医学逻辑的梳理和验证。想要深入的质控病案和编码,往往需要工作人员有深厚的临床经验。中国每年产生的病案数超过2亿份,而病案质控的专业人员处于高度缺乏的状态。约有4万名的质控医生和编码员在医院工作,但大部分未经过专业培训,也不是持证上岗,同时不具有临床经验。
在欧美,平均1000张床的医院对应的编码统计人员是40位;而在中国全国范围内,目前持证的质控员和编码员总数量小于2000人,处于严重供需不匹配的状态。
幸好,NLP技术的发展,可以为这个行业的困局提供一个新的解决方案。
左边的案例中,患者的主要问题是动脉硬化并斑块。从临床角度来看,这个诊断名称是没有问题,但是从ICD编码以及DRG支付的角度看不够具体,因为没有说明具体的病变部位。不同部位的病变,诊疗过程及医疗资源消耗是不一样的,必须要在编码中明确表示出来,不然就会产生损失。
在病案的病程记录部分,AI质控系统发现了一个关键信息——颈部血管彩超。因此,系统推断这是一个颈动脉的病变,对应的编码应该是I70.806,系统会将这个缺陷提示给临床医生,由临床医生做最后的确认并更正。
可以看到,NLP技术可以通过理解并按内容模仿临床专家的思维,来发掘病案的缺陷并反馈给医生,进而构建一个高效的病案质量提升闭环。
我们来对比一下传统的质控方式。
传统方式只能实现抽查还有形式的质控——即有没有漏填,完全无法满足新形势下医保以及医院管理的业务需求。而AI质控不仅可以达到病案的全覆盖、找出形式有没有漏填,更可以找出深入的内涵错误,帮医院找回病案上费用的损失。系统可以及时反馈结果,在患者出院前夕就及时发现问题、修改问题,而不是事后亡羊补牢。
我分享三个案例,帮助大家进一步理解。
病案首页上的主要诊断选择,对DRG的入组影响极大,入错组一定会造成费用上的损失。
在病案里,主要诊断的选择是化疗,但是AI系统在病案数据里发现,患者在入院后进行了一个全喉的切除术,之后才进行化疗。
按照主要诊断选择的原则,应该选择咽喉癌这个诊断,而不是化疗。化疗在DRG支付里的权重和付费是极低的。所以,这是一个典型的低编,把一个3万元难度的治疗写成了5000元,
除了主要诊断,其它诊断的漏填、错填也会影响入组和费用。
根据病案可以发现,患者是入院后进行的脑血管造影检查,被诊断为脑动脉瘤急性伴动脉瘤破裂,从而引导蛛主网膜下腔出血。所以,蛛网膜下腔出血并不是患者本次入院的主要就诊原因,主诊的选择应该改为大脑动静脉有畸形的破裂,对应的编码是I60.8。
病案首页中的很多错误,根本原因是临床体系和支付体系间存在的差别。
从临床的角度看,医生选择的主要诊断和编码是没有问题的,但是它不符合疾病分类学的要求。这就是一个典型的跨领域、跨学科的任务带来的痛点。想要解决这个问题,是让医生学习编码,还是让编码员学习临床?这两条路都不容易走通,好的技术和好的产品的价值极大。
最后一个例子,手术和操作编码的漏填。
这也是目前医院损失的一大原因。
漏填出现的原因很多,因为临床情况很复杂,比如患者在诊疗过程中曾经转过科,后续的科室医生往往不知道转科前的治疗过程,漏填手术直接会把这个病例从外科组变到内科组,付费差异也是极大。
我们可以看到,想要做首页质控,对于病案内容的理解是前提,NLP技术是核心关键。业内有不少做首页质控的企业和产品,但很可惜都没有能力对接并分析完整的病案数据,无法进行病案和首页的前后一致性核查。这样的产品会遗漏绝大部分的重要缺陷,只能找到一些基础错误,无法满足医院的业务需求。
我们看看国外的案例。
DRG支付在欧美各国已经推广多年,因而AI病案和编码质控已经成为各级医院的必备工具,最主要的价值是保障准确的保险支付,减少医院损失。
AI病案质控在美国的兴起可以追溯到2015年。当时,美国的编码系统要从ICD-9升级到ICD-10,复杂度大大提升,传统的人工质控方法无法维系,只能通过技术来解决问题。截止到2019年,美国超过50%的医疗机构都配备了病案质控和编码系统。医院平均每年支付百万美元级别的费用,可以带来千万美元级别的收益。
这个系统的ROI极高,在1:12-1:20的水平。也就是说,医院一个月左右就可以回本。
M&Modal是美国病案质控领域的一家新兴公司,2018年底被3M以10亿美元的价格收购。该公司可以实现5%的CMI指数提升,意味着帮医院增加了5%的总营收,以及找到漏填的并发症、严重并发症,降低了出院诊断不明确的病例。
目前,在美国病案质控系统最大的两家供应商是3M和United Health旗下的Optimum,行业集中度很高,前两名的产品占据了市场的绝大多数份额。经常有朋友问,这个系统未来会不会成为HIS系统的一个子集?言外之意,厂商会不会很容易就做出来?在美国Epic和Cerner这么强大,也没有进入这个赛道,其实背后有很多深层次的原因。
在德国也是“Code = Money”,在DRG推行后,类似的系统成为医院的标配。
AI病案质控的技术特点和行业展望
从投资人的角度来看,投资AI赛道有两个核心的问题:技术壁垒如何判断?如何甄别不同公司产品的成熟度?
我认为,不同的应用场景对于系统性能的要求不同,系统性能要求越严苛的应用场景,技术门槛也最高。很多行业都有质控系统,作为生产安全和产品质量保障的终极守门员,质控系统的可靠性要求往往极高。
对于病案质控系统,95%的准确率只是一个最基础的要求。
举一个例子,一家病床数2000张的三甲医院,每天需要质控的运行中和终末病案数量大约也是2000份。假设每份病案平均只会出现一个质量缺陷,一天下来就会产生2000个缺陷;如果是5%的错误率,就意味着100份病案质控出错。
因此,医院病案质控系统是极其慎重的。系统的精准度是产品成功的关键,而保障一个系统精准度的就是底层的NLP引擎。如果对医学文本理解的颗粒度和准确度不高,那么无论如何打磨上层产品,都不可能实现性能的显著提升。
病案质控的第一步就是理解病案的语言,NLP技术的三个重要环节:分词命名、实体识别、语义关联分析的提取。医学语言的NLP有特殊的技术难点,需要通过构建专用的语料库进行针对性的算法训练。
第一步是分词,从第一部分开始,医学语言的特殊性就已经体现得淋漓尽致。
我们只看最后一句话,里面不包含任何一医学的专业术语,我们感受一下:患者病来,患者神志清,精神可,睡眠可,二便无殊,体重无明显变化。如果直接把其他领域训练出来的NLP算法,通过简单的调参就用于医疗,结果的准确度可想而知。
第二部分,命名实体识别,因为医学语言专业的属性很强,存在大量的专业术语,性能可靠性要求又极高。
行业里有很多医疗NLP领域的先行者,最早的核心应用场景定位在科研。从技术的角度来看,先做科研是对的。因为技术难度相对较小。科研的应用场景很好理解,就是从完整的病案中抽取一部分的信息来进行分析和整理。科研应用并不需要对病案进行100%的后结构化,只需从中挑选部分的信息。
因此,科研NLP的标签类型在8-20类即可满足要求,同时会有大量的文本不需要被识别。
但是医疗质控的应用需求又如何呢?
单单说现病史的质控,就需要把一个症状的描述拆分到非常之细的程度:呕吐的性状是不是喷射状,以及内容物的差别,都会影响主诊医生对诊断大方向的判别,这些都需要被算法进行识别。
病案质控是寻找医生在病案书写中的缺陷,其前提就是,算法必须有能力对病人进行一个100%的后结构化。如果没有完整理解全部的病案,又哪来的自信,拍着胸脯说医生你写错了呢。
所以,质控NLP算法的分词颗粒度和命名实体识别的标签类别要远远超过科研NLP的要求。
第三部分,语义关联分析提取。
一个真正智能的算法,必须能够容忍真实病案中出现的各种各样的问题:同义词、错别字、丢字造字、语法错误等等,不能遇到问题的时候就卡壳。算法需要和人一样能够识别、容忍还有理解。
作为投资人,我们经常听到,某个医疗AI项目说自己的算法是最好、最精准的,因为用于训练算法的数据都是用标准流程生产出来的。我并不是很认同这个观点。
我认为,一个能广泛应用于真实世界的产品,必须要通过技术来解决这些不完美。一个在真空环境中训练出来的算法,不可能被临床广泛接受。
下面这个是关联分析提取后的结果,找到标签间的逻辑关系后结构化完成的。
AI病案质控是一个典型的AI产品,而不是一个信息化的产品,所有底层算法和产品架构不可能通过一、两个医院项目就能打磨完成。而要在产品研发的初期,根据应用场景的任务目标来打造专用的语料库,进行算法的训练和迭代。因此,研发周期会比较长。
另外,投资人如何判断某个项目的技术成熟度?
我的经验是从研发的流程入手,看团队是否在用正确的方法研发、每一步研发要用的时间是否符合科学规律。对于医疗产品来说,对于品质的追求永远要优先于速度。用科学的方法正确的方法做事,是基础中的基础。如果方法错了,基本上可以一票否决。
对于已经上市的产品又如何判断产品的成熟度呢?这就要找对验证产品性能的金标准。
医疗AI行业有个乱象,大家都喜欢玩概念,什么都打上AI的标签。
60分的AI和95分的AI是一回事吗?可能中间差了好几个太平洋。但是验证系统性能的基本标准又是什么呢?不同的产品可能不太一样,需要NMPA证的产品还好,至少有一个底线就是拿证。但是,今天分享的AI病案质控、CDSS这一类不需要拿证的产品,找到金标准就显得特别重要。
对于病案质控,临床采纳率可以作为一个金标准,系统给医生指出错误,医生改就表示采纳意见,没改或者申诉就是不认可算法结果,这应该是一个终极检验的标准。
远毅资本投资的国内首家专注于病案质控的企业——颐圣智能,公司的系统目前临床应用得很好,已经达到了98%的临床采纳率,给这条赛道起了一个好头,也给未来的进入者定了一个比较高的门槛。
根据市场测算,我们认为AI质控是一个典型的、被暂时低估的医疗AI赛道。在国外,这是一个60亿美金规模的成熟市场。
随着DRG支付的逐步推开,AI病案质控赛道即将进入一个发展的快速期。
AI病案质控的特点非常明确:
第一,可以帮助医院开源增收,医院的付费意愿明确。随着DRG试点支付的落地,我们对产品的议价空间十分乐观。在美国病案基础质量已经非常出色的情况下,类似的系统还可以找回5%的营收损失。在中国数据质量基础更加薄弱的情况下,我们认为,这个数字会相当的惊人。
第二,产品在临床应用中可以持续得到医生的反馈,帮助迭代算法。同时,由于不需要注册,没有NMPA的束缚,产品用的越多性能就会越好,形成强者恒强的网络效应。
我们判断,未来赛道的集中度会比较高,头部企业具有极大的投资价值。
医疗数据的应用潜力和商业价值是巨大的,但底层的数据质量问题,就像一座大山阻挡了行业未来发展的道路。DRG改革或许会给行业带来一些变化,让医院有主动提升数据质量的意愿,而NLP技术又带来了相当成熟的数据质量提升方案,在数据产生的过程中就保证了数据的质量。
AI病案质控将是未来医疗行业的重要基础设施之一,可以帮助更多、更丰富的应用场景加速生根落地。