医疗AI行业,恰如十年前的千团大战,浪花淘尽英雄。
巨大的销售成本、长期的研发投入,VC机构的跟进与观望,让大批创业多年的玩家面临生存的“冰火两重天”。如今,随着AI三类证的陆续发放,商业化的“绳索”进一步松绑,十多位厂商又迎来新一轮的商业“增长周期”。
拿证过程中,他们有哪些经验、得失?
近期,雷锋网《医健AI掘金志》邀请到科亚医疗、Airdoc、联影智能、汇医慧影、致远慧图等医疗AI企业,一同分享三类证背后的审批经验、创业多年的战略得失,以及各自的未来商业化探索。
联影智能COO詹翊强,以《从放射勾画到肺结节,联影智能四张三类证背后的质量管理体系构建方法论》为题,进行了演讲。
詹翊强表示:“深度学习算法和传统算法最大的变化,就是把算法研发从程序驱动变成了数据驱动,省略了大量人为开发流程,蕴含了大量训练阶段出来的参数。而这种算法或技术上的范式转换,同时也带来评审环境和重点的变化。”
审评方关注数据,不仅关注训练数据,也包括测试数据,怎样去证明数据扩增对算法性能有怎样的影响?算法性能和哪些数据标签有关?
除了数据集建设,评审过程中如何对AI产品溯源,用需求来证明产品价值也同样重要,因为算法往往呈现的只是结果,但对医疗产品而言,结果和过程往往同样重要。
以联影智能的骨折AI产品审批为例,从算法角度预期用途就非常明确——通过CT图像辅助医师进行肋骨骨折检测。
如何从需求上证明临床价值,并在前瞻性或回溯性临床试验中完成证明,才是AI企业和开发人员要真正考虑的问题。
以下是演讲的全部内容,《医健AI掘金志》做了不改变原意的整理和编辑:
大家好,我是联影智能的詹翊强,感谢《医健AI掘金志》能够组织这个系列的直播。
我相信人工智能医疗器械注册证是医疗行业当中大家非常关心的一个话题.
今天我想分享我参与医疗注册证申请时的一些思考。将围绕两个关键词,数据驱动和以终为始。
首先简单地介绍一下联影智能和联影集团。联影创始于2011年,最初主要是做高端影像设备和放疗设备,也包括医疗数字化解决方案。
这一部分已经变成了现在联影集团的第一板块,即上海联影医疗科技有限公司。
联影智能是联影集团的第二板块。从名字可以看出,联影智能是专注于医疗AI解决方案的公司。
除此以外,联影集团还有其他三个板块:联影智慧、武汉联影智融和联影微电子。
联影智慧是精准医学影像中心,提供第三方影像中心服务;武汉联影智融专注于先进诊疗设备,例如手术机器人;联影微电子是做更底层的硬件——芯片,例如用于高端医疗设备的芯片以及医疗人工智能芯片等。
接下来,再介绍联影智能的三个业务方向——赋能设备、赋能临床和赋能科研。
首先,赋能设备,我们希望把人工智能算法深度集成到联影的大设备当中去。
从源头做起,让AI在源头赋能全线的医疗诊疗设备,实现智能数据获取、数据重建、工作流等等;
赋能临床是指当图像产生以后,我们通过人工智能算法帮助医生更有效率地阅片,降低误诊率;
赋能科研则是希望通过AI技术打造共享平台和生态系统,实现从技术自用到共享跨界开放。
围绕医疗AI的市场准入,目前联影智能在国内已经拥有4张三类证和6张二类证。
三类证包括放射治疗轮廓勾画软件、骨折CT影像辅助检测软件,肺炎CT影像辅助分诊与评估软件和肺结节CT影像辅助检测软件,其中后三者与AI技术有关。
美国市场,我们有一款骨折分诊软件以及与兄弟公司合作的AI辅助影像设备拿到了FDA上市前通知;
欧盟市场,我们的胸部多病种辅助诊断软件也获得了CE认证,包括肺结节、肋骨骨折和肺炎等。
中国、美国还是欧盟的医疗器械准入流程是比较相近的,通常是先要确定产品预期用途以及类别,并进行同品种产品调研分析,通过严谨的设计开发流程,完成产品的验证和确认。
根据预期用途设计产品临床评价路径,提交监管机构进行审评,在审评阶段需要企业和监管机构进行多次的沟通交流,最终证明产品的安全有效,完成不同国家/地区的市场准入。
在2019年前,我国数字医疗指导原则体系主要集中在使用常规算法的医疗器械软件、医疗器械网络安全以及移动医疗器械等等。
2019年7月,国家药品监督管理局医疗器械技术审评中心正式发布了《深度学习辅助决策医疗器械软件审评要点》,《要点》的发布对人工智能行业的发展起到了里程碑的作用,规范并推动了行业的发展。
另外,在2020年疫情最严重的时候,审评中心也非常及时的发布《肺炎CT影像辅助分诊与评估软件审评要点(试行)》,两个审评要点的发布为人工智能医疗器械软件注册申报提供了指导和方向。
由于近两年已经有数十款人工智能医疗器械软件已获批,国家药品监督管理局医疗器械技术审评中心结合产品审评经验积累和监管科学研究成果,陆续发布了《人工智能医疗器械注册审查指导原则(征求意见稿)》和《人工智能医用软件分类界定指导原则》。
这将会进一步规范人工智能产品分类、注册申报的要求,促进人工智能医疗器械行业健康发展。
在这里也借此机会感谢国家药品监督管理局和上海市药品监督管理局的各位老师。
接下来重点讲一讲联影智能目前拿到的三张 NMPA人工智能的三类证,包括骨折、肺结节和肺炎。
这三款产品从用途角度均属于人工智能辅助决策类软件,其中前两款是辅助检测类,第三款是辅助分诊类,根据产品预期用途,临床试验的主要终点设计也不同。
心得体会之一:从技术到数据驱动
相对于其他软件产品,采用深度学习技术的人工智能医疗器械基于是海量数据训练得到的算法,所以在产品注册申请时重点关注其算法泛化能力、数据质控、可解释性等问题。
这张图简单描述了深度学习技术特点。深度学习是由两部分组成的,上面一部分是训练过程,下面一部分是推理过程。
在训练过程开始前,整个网络结构就已经确定。
我们所要做的就是把一些经过标注的图像放到这样一个网络上去做一些迭代训练。
这个过程时间会很长,也需要反复的迭代,需要大量的运算资源,一旦网络被训练好了,就可以把网络从上面移到下面,这个时候网络里的权重就不会变化。当一个新的数据进来以后就直接放到网络里,然后形成一个结果。
相对于传统的图像分析算法,深度学习最大的特点有几个,我这里也总结了一下。
第一,需要大量的训练样本;
第二,需要明确的目标,也就是它的标注;
第三,算法的通用性强,通用性是指只要把网络架构搭好,就可以用不同的标注训练样本去改变网络。
深度学习算法和传统算法最大的变化,就是把整个算法研发从程序驱动变成了数据驱动。
以前做影像分析算法,经常要让算法科学家自己理解病灶特征,然后手工写很多代码。
这些代码是基于科学家对病灶特征的理解写出来的,最后传送到产品代码里面,有大量人为代码。
但深度学习框架里边,推理阶段代码相比训练阶段较少,而且里边蕴含着大量训练阶段出来的参数。
从程序驱动变成数据驱动是算法或技术上的范式转换,同时也带来审评和申请的变化。
而在深度学习辅助诊断软件方面,审评方就非常关注数据,不仅关注训练数据,也包括测试数据,也关注不同数据对网络表现的影响。
心得体会之二:以终为始
做算法或技术的人最关注结果,但对医疗产品来说,结果和过程应该是并重的。
要从需求分析到数据收集,到算法设计,到验证确认,甚至到更新控制来连成整个链条,算法设计只是整个链条里边的一部分,链条的每一步都要做好追溯和管理。
在做需求分析的同时,就想清楚产品预期用途、临床价值是什么,临床方案是什么。
刚才讲了一些概念,现在用三个实例分别阐述数据驱动的重要性。
第一,骨折CT影像辅助检测软件产品。
预期用途是用于读取分析符合DICOM标准格式的胸部CT平扫图像,辅助培训合格的医师对成人外伤患者进行肋骨骨折检测。
预期用途很清楚,但产品的临床就需要从需求分析开始做,找到临床价值,然后进一步体现在临床试验当中,这也是当时产品的定义。
骨折检测其实只是一个很粗的概念,在产品定义时,要考虑把骨折检测做到什么程度?要不要定位到具体某根肋骨上?要不要知道骨折影响到几根肋骨?一共有几处骨折?这些问题都和最后的临床试验设计有关。
我们之前也曾在实际临床数据上做过分析,在800多个病人样本中,我们发现了一些很有意思的规律。
1.肋骨骨折与合并症有强相关性,没有肋骨骨折的病人中<10%有合并症,但有肋骨骨折的病人中40%有合并症。
2.随着肋骨骨折数量增加,合并症概率也明显上升,当骨折数量达到7处以上,合并症就可能上升到80%。
3.骨折影响的肋骨根数和合并症也强相关。如果7根以上肋骨有骨折,合并症概率就超过80%,以上的发现也和医学文献中一致。
由于骨折与合并症的相关性,在一个急诊场景当中,我们不仅有必要知道病人有无骨折,还有必要知道病人有几处骨折,骨折在哪根肋骨上,这反映出了骨折检测的临床价值是什么。
同时,因为医生阅片易疲劳、易漏诊、耗时长,针对骨折判别不要漏,针对骨折数量不要少,肋骨定位不要错。
所以肋骨骨折检测的核心功能关键就是两点:
1.把骨折检测出来,尤其是轻微骨折;
2.需要自动确定骨折所在肋骨位置,然后沿着这个思路就可以设计算法流程。
很显然,我们的算法不仅要做骨折的检测,还要做肋骨分割,还要通过脊椎定位来标记这些肋骨,最后产生一个报告。
有了算法还不够,还要做软件集成,骨折多发生于急诊场景,所以诊断时效性也很重要。
最后,我们选择了BS软件架构将AI服务器和PACS和影像设备相连,AI自动拉取数据进行计算,当医生打开影像就可直接看到AI肋骨骨折检测结果。
最后,在设计临床试验时,为了证明产品临床价值,我们还需要做病人层面骨折检出性能(不漏),也要做每一处骨折层面检出性能(不数错),还要验证肋骨层面的骨折检出性能(不定位错)。
整个研发思路就是从临床价值开始,先知道肋骨骨折这件事情和临床的产出有什么关系,然后再找到医生痛点。
在这个基础上定义产品的核心功能,针对核心功能做算法设计,最后再设计临床试验。
只有通过这样一个闭环,产品临床价值和性能才能被充分验证,才能验证AI产品安全性和有效性,这个闭环就是我讲的“以终为始”。
第二,用肺结节来介绍数据对软件的影响。
肺结节是一个大家非常熟悉的应用,很多友商也都有这个应用,临床价值也非常明显。
肺结节痛点是CT层数非常多,有三四百层,但肺结节体积非常小,随着体检意识增强,胸部CT扫描量越来越大。
产品的关键价值就是希望有效地避免漏诊,以及提高阅片的效率,最后过渡到产品功能,就是产品需要既支持不同类型肺结节检出,也要支持大于4毫米的不同结节检出。
这里我想讲的一点是数据对算法的影响。
如图所示,每一根线代表我们用不同数量训练样本训练出来的模型,在同一个测试样本上可以看到训练样本不断地增加,曲线之间的差距(橘红色和绿色的线)慢慢收敛。
这个时候,我们认为模型已经趋于“饱和”,再增加训练样本也不会大幅度地提升模型的准确率。
所以,我们采用基于数据的empirical方法来验证训练数据是否足够,是因为虽然深度学习是一个很大的技术突破,但背后的理论还并不清楚。
据我所知,在学术界还没有定论训练一个模型需要多少数据。
审评要点中对数据集构建也有一定要求,就是在数据扩增的时候还要做算法性能的评估。
所谓的数据扩增不是增加新数据,而是通过图像处理方法,例如旋转、翻转图像来增加训练样本。
对我们的肺结节产品,我们也做了这方面验证,可以看到数据扩增对肺结节检测性能提升很有帮助。
根据审评要点,我们还需要评估算法性能都会受到哪些因素影响,例如不同层厚、年龄、性别和厂商。
最后得出,性别和厂商对肺结节检出并没有直接影响,年龄和层厚对肺结节检出性能有一定的影响,但都可以解释。
这个例子说明在产品评估过程中,因为深度学习是数据驱动的,所以要特别关注数据对整个产品的性能的影响。
第三,介绍一下肺炎影像辅助分诊和评估软件。
新冠疫情开始之后,我们突击开发了肺炎软件,在很多医院试用,也得到了较好的反馈。
产品本身思路是分诊+分析:分诊就是让AI对病人的片子进行预读,进行标记,并提示医生尽早读片。
分诊的概念和刚才讲的检测是不一样的,分诊并不需要在界面上显示病灶的位置,只需要告诉医生这个病人是否是疑似病例。
在分诊的基础上,还需要分析肺炎的严重性,要做各种各样的量化分析,包括整个病灶的体积,病灶影响到的肺叶和肺段,这是AI产品的基本功能。
我主要想讲一下这个软件临床试验流程和管理。
在阅片的过程中,我们要跟参考标准做比较,包括判断病人假阳性(即这个病人是不是疑似病人)的准确性;以及比较AI自动分割和医生勾画的病灶的差异。
前者是我们的一个主要指标,希望通过这个来说明分诊功能是否可行;
后者是我们的一个次要指标,通过这个来考虑勾画的精准性是不是足够,也就是评估对病人的病程等判断是不是有足够精确度。
另外值得一提的是阴阳性数据入组标准。
我们所用的阳性数据是基于影像学特征的,因为AI“看不到”其他非影像的临床信息。
所以,我们只录入这些具有肺炎影像学特征的新冠肺炎确诊病例作为我们的阳性病例。
除此之外,我们在临床试验的管理规范当中,也遵循了伦理科学的原则,涵盖了医疗器械临床的全过程。
保证各种各样的记录保留,没有记录就认为没有发生,同时记录也要根据相应的规范来做,这是在临床试验中,特别是基于大数据的AI产品的临床评估中非常重要的一点。
前面介绍了上市前流程,这只是整个产品生命周期的一部分(即图像里灰色的三个点)。
企业拿到证以后,我们还需要关注上市后的流程,包括生产流通使用不良事件再评价等等。
大家知道目前人工智能算法第一批已经拿到证上市了,但我相信很多人工智能算法,即使是同一个功能的人工智能算法,还有可提高空间的,特别是在真实的临床场景使用之后。
换而言之,已经拿证的产品还需要通过进一步收集前线的反馈,来继续提升模型效果。
这时就牵涉到一些更新控制,我们也非常关注这方面,包括软件应该怎么更新,算法更新和软件更新内容及程度,验证和确认要怎么做,这都是下一步重点关注的方向。
前面讲了很多市场准入策略,市场准入是公司质量管理体系的输出。
作为医疗器械公司,还必须要关注公司的合规建设,加强质量管理体系建设、分析国内外法规标准差异,持续关注上市后不良事件,对市场准入形成反哺。
产品市场准入固然重要,获得市场准入代表着行业对这个产品所在方向的认可,但从企业角度来说,同时也要关注企业的合规建设,一方面对内要做到持续滚动地监测落地合规要求,对外要关注法规动态,积极参加药监部门培训。
雷锋网:AI产品的训练数据都直接来自临床么?有没有参考公开数据集?
詹翊强:测试集是来自于临床的,为了反映这样产品或者模型的真实性能,测试集要尽可能地包括不同地区不同质量的影像,不要去过多地人为筛选测试影像,这样的测试影像从统计学上才有代表性。
雷锋网:CADe和CADt的区别?
詹翊强:我是这样理解的,CADe就是detection,要精确报出每个病灶的位置;
CADt代表分诊,在病人层面给出判断即可,我自己理解CADe是在病灶层面的检测,除了判断阴阳性还要报出病灶所在的位置,而CADt只要报病人层面是阴阳性就可以。
雷锋网:二类注册证和三类注册证的区别在哪里?
詹翊强:我是这样理解的,二类和三类是根据产品预期用途,结合处理对象、核心功能等因素进行综合判定,可以参考医疗器械分类目录来决定,但是实际产品注册流程上是一样的。
在当前有效的法规条件下,二类产品如果不在免临床目录也不能做同品种比对,也是需要通过临床试验的方式进行临床评价,关于临床评价的方式,大家要参考国药局新发布的临床评价技术指导原则进行评价。
之前因为人工智能技术很新,基于人工智能技术的产品均为三类。
由于行业和监管发展变化,为了更科学的监管,《人工智能医用软件产品分类界定指导原则》中对于人工智能医用软件类别的判定有了更合理的分类准则。
雷锋网:肺炎分诊里阳性数据和阴性数据是怎么划分的?
詹翊强:这是一个很好问题,我的理解是要根据产品的预期用途来定义阴性和阳性数据。
如果产品是想把新冠肺炎和非新冠肺炎给区分出来的,阴性数据里边就应该含有非新冠肺炎的数据。
反之如果定义只是想检出肺炎的话,这个阴性数据就应该是没有肺炎表现的病例,而阳性数据里边应该包含的不仅仅是新冠肺炎,还要包含其他肺炎的病例。
雷锋网:达到平台期的样本量?
詹翊强:因为其实我刚才讲了一下,据我自己的理解,这是一个非常empirical(经验主义)的问题。
我看到过有一些文章试图去讨论,根据网络架构的复杂性来定义需要多少样本量,但目前好像还是没有一个很明确的答案。
网络有多复杂没有一个确切的答案,还要靠实验去做,就像我刚才显示的,我们通过不同训练数据达到饱和以后,就可以知道基本上就到一定水平,但可能对不同应用达到饱和所需要的数据量是不一样的。
雷锋网:三类证申请需要准备多大的训练集?
詹翊强:这又回到我刚才说的问题,取决于模型,当然也取决于应用。如果是要问准备几家医院的数据,临床试验多中心的定义是大于等于三家。
雷锋网:有些临床试验是AI+人 versus人,还有一个是AI versus金标准?
詹翊强:那么我的理解是如果是CADe的软件,因为是辅助检测,临床试验结果需要做出优效,要用AI+人 versus人;
对于一些CADt的软件,例如新冠肺炎,在审评指导要点里也提出来,这种就可以用AI versus金标准,单组目标值方法进行方案设计。
雷锋网:肺结节的分界线为什么是4毫米?
詹翊强:这个方面我们也做了一些调研,AI算法对4毫米以下的薄层检出率还是挺高的。
但是从临床的角度,4毫米以下的结节通常是不需要做任何事情的,如果产品要把4毫米以下结节也做,有可能会带来一些过度诊断。
所以这也是为什么不仅是我们,国内外友商大部分都把4毫米作为一个分界线。
雷锋网 :联影智能的AI产品在其它厂商也可以使用吗?
詹翊强:是的,刚才我例如说在肺结节的时候显示了一个图,这里边就也显示出软件对不同厂家设备的图像表现都非常一致。
雷锋网:推广产品时,很多客户会问肺结节AI和肺结节CAD的区别,如何解释?
詹翊强:这是一个很好的问题了,我是这样理解的,AI和CAD是两个维度的事情。
AI是一种技术,CAD是一种应用,AI是一种工具,说的是怎么做。而CAD它的全称是computer aided diagnosis,计算机辅助诊断,说的是做什么。所以说,AI跟CAD不是互斥的。
我的理解是我们常说的“肺结节CAD”是指以前用传统算法(如专家系统、机器学习)做的CAD产品,肺结节AI是指用AI算法做的CAD产品。
从技术上说,AI超越了以前产品的一些性能,可以说用AI算法做的CAD产品要好于用传统算法做的CAD的产品,但两者的预期用途实际上是一样的。
雷锋网:做临床试验时,如果有多个医生的标准不统一怎么办?
詹翊强:这也是一个很好的问题。我们在建金标准的时候,对医生的资质有较高的要求。
这和临床试验中对比组的阅片医生不一样,阅片医生可以让一些中年资和低年资的医生来做。
但在建临床实验金标准的时候,就需要高年资医生标完以后,如果有不一致,就要讨论直到结论一致。