现今的几家医疗AI企业能够走到头部,或多或少都和拿下三类证有点关系。
过去,认证曾是这个市场发展的最大阻碍之一,给众多厂商的业务和布局都踩下了刹车键;
而今,曾经全力攻关审评审批的几家人工智能企业,三类证也已经成为他们商业化发展,乃至上市背后最坚实的基石和后盾。
拿证过程中,他们都曾经历怎样碰壁摸索和努力?
近期,雷锋网《医健AI掘金志》邀请到科亚医疗、Airdoc、联影智能、汇医慧影、致远慧图等医疗AI企业,一同分享三类证背后的审批经验、创业多年的战略得失,以及各自的未来商业化探索。
致远慧图CTO丁大勇,以《基于临床应用的糖网AI研发与拿证》为题,进行了演讲。
丁大勇表示:医疗AI产品的认证,固然有很多艰辛和曲折,但体会最深的主要有三个方面:首先功能设计针对临床问题;其次,数据采集要反映临床实际;最后,模型性能需要接受临床检验,也就是专家和教授常谈的“医工结合”。
以产品功能设计为例,从技术角度出发,当AI给出 “转诊”与“不转诊”建议时,糖网筛查功能开发就已经完成80%。
但在实际临床中,转诊建议是有紧迫与不紧迫的区分:但临床对患者转诊建议是有紧迫与不紧迫的区分:轻度不需要转诊;中度需要在一个月或者两个月之内转诊,具体由眼科医生来确认;重度要两周之内就要完成转诊,否则它的进展对视力的损伤风险会比较大;
如果是第四期就要立即转诊,英国筛查要求中就要求48个小时之内去看眼科大夫,并且确定后续的处置方案。
在产品功能设计的时候,就需要把这一点考虑进来。同时,因为需要收集标注数据,医生阅片就必须提前考虑疾病严重程度,这种思考使得后续转诊还是不转诊更加一致。
第二,产品功能是阅片关注区域的提示,现在诊断必须由医生来完成,不能只用辅助诊断。
医生只是判断是否采纳辅助诊断建议,我们就要给出充足的建议理由。眼科医生看眼底片是非常细致的,我们不提示,他会花更多时间细节,一定找到新生血管或增殖膜位置。
如果产品能够一下指出来,就可以节省医生搜索图像寻找病灶区域的时间。
临床试验数据分析表明,产品提示区域中的病灶,对金标准诊断结果的解释水平超过90%。
这样在临床和认证质量安全角度,就需要将这一点考虑进来,首先在收集标注数据阶段,就要提前明确出疾病严重程度,并准确标注出来,之后在认证过程中也必须有明确证明过程,使得说明和功能更加一致。
以下是演讲的全部内容,《医健AI掘金志》做了不改变原意的整理和编辑:
各位朋友,大家晚上好。我是致远慧图 CTO丁大勇,非常高兴跟大家交流我们在人工智能医疗器械方面的研发与注册经历。
我将报告我们糖网AI(糖尿病视网膜病变的辅助诊断)的研发和注册过程,给大家带来素材和思考,同时也希望各位专家前辈同仁能够提供一些指导,把人工智能医疗领域做好。
首先介绍一下公司,致远慧图成立于2016年,拥有医疗影像人工智能实验室,在计算机视觉处理、人工智能、图像标注和大数据计算等领域有深厚的积累和行业经验,最初的创始人有孙宇辉,我和李锡荣等。
目前,致远慧图的糖尿病视网膜病变眼底图像辅助诊断软件(EyeWisdom®DSS)与多病种眼底影像辅助诊断软件(EyeWisdom®MCS)已先后获得欧盟CE认证。糖尿病视网膜病变眼底图像辅助诊断软件已经获批国家药监局医疗器械三类证。多病种眼底影像辅助诊断软件是全国首个获国家药监局第三类《创新医疗器械特别审查程序》审批的同类产品。
我是清华大学计算机系博士毕业,师从国内人工智能领域第一位中国科学院院士张钹教授,毕业后在人工智能和计算机视觉领域工作近10年。其中,2007年到2013年任英特尔中国研究中心资深研究员,从事机器学习,计算机视觉相关的研究工作,参与多媒体检索、人脸识别、AR导航、以及手势交互等多个项目的研发。
宇辉跟我以前是Intel的同事,在sales marketing group(业务暨营销事业群)工作过十多年。
在出来创业前几年,他曾领导一个涉及医学影像的全球创新项目,涉及超声设备小型化,当时Intel非常关注这种移动计算、嵌入式计算的应用。
宇辉也看到医疗设备小型化趋势,小型化医疗设备可以在救护车等场景使用,但急救现场的医护或急救员有能力操作,但不一定能读懂影像,这就是AI体现价值的地方。
而李锡荣教授曾与我在清华智能技术与系统国家重点实验室跟随张钹院士一起学习人工智能技术。
我博士毕业之后就加入了Intel,锡荣老师则是到荷兰阿姆斯特丹大学继续深造,后来回国。
当我和宇辉打算创业时,拜访了锡荣,他也非常支持,并加入了我们,现在致远慧图已经有七十多人的算法和硬件工程师团队。
核心技术领域包括计算机视觉、人工智能、图像处理、大数据计算等等,提供疾病筛查诊断治疗方面的人工智能和智能硬件集合的解决方案。
首先我来介绍一下糖网AI的背景。糖网主要是做糖尿病视网膜病变的筛查。糖尿病视网膜病变是工作年龄人群的首要致盲因素,我国糖尿病患者现在已经接近1.3亿或者1.4亿了。糖尿病视网膜病变在我国糖尿病患者中的发生率接近三分之一,在欧美略低一点,大概是在20%~25%。对糖尿病视网膜病变筛查做得最好的是英国。
糖尿病视网膜病变随严重程度分为四个等级,按照诊疗标准,二级及以上都需要转诊到眼科进一步检查和处理。
我们现在看到的4张病例图都眼底照片,用一种专用的相机、通过人的瞳孔拍摄眼球底部,也就是视网膜上面的情况。
视网膜底部亮亮的圆盘叫视盘,视盘中间生长延伸出血管,一起延伸出来的这种白色的很薄的一层是神经纤维。所以,视盘是这给视网膜提供营养的一个关键结构,同时也是将光信号转换成了神经冲动之后沿神经纤维传出眼球进入大脑的一个关键结构。
糖尿病患者在长时间内环境紊乱的条件下,全身的微血管(直径50μm以下的)会产生一些病变,病变会对需氧量高的那些组织首先产生危害,那么人全身需氧量最高的组织单位是哪个?
大家可能以为是大脑皮层,实际上不是,是视网膜。微血管异常的时候,首先会在视网膜上引起缺氧反应,刺激组织的代偿性变化,最终产生新生血管,就是最右边那那一例的情况,糖尿病视网膜病变达到第4期,视网膜长出一些异常的血管。
异常血管非常脆弱,破裂的时候会有很多不好的影响,浅层次看就是玻璃体混浊,从更深层的机理看,出血造成血液中的一些物质会侵入并毒害视网膜组织。脑血屏障保证了血液当中的一些有害的物质,不会进入脑组织,那么视网膜和血液之间也有屏障,当新生血管破裂的话,血液当中的有害有毒的物质会对视网膜产生不良影响,使人视力急剧损失且不可逆。
大家可以看到从左到右,四种严重程度逐步增加。但是对于糖尿病患者来讲,他感受的症状不是一个线性增长的过程。在前三期如果没有出现这种黄斑水肿的话,前三期患者主观是感受不到视力上的变化的。当患者感受到自己视力已经下降,一般就已经进展到了第四期。到这时,视力上已经损失的部分是无法恢复的,治疗只能延缓病情的进一步恶化。
这就是为什么糖尿病视网膜病变一定要进行筛查,而且要通过早期的筛查观察它的进展,来采用眼部乃至全身的一些控制方法来延缓它的进展。
(二)糖网AI筛查的临床场景
我们的临床场景主要是体检、内分泌科(糖尿病科),还有基层眼科。所以我们产品主要考虑三个关键功能:
第一,按照国际分级严重程度判断;
第二,根据影像提示医生要关注哪些地方进行核对检验;
第三,图像质量的自动评估。
左边是产品界面,在2021年6月获得药监局审批。
(三)产品注册过程
我不是这方面专家,只是经历讲讲自己的理解。注册审批最核心逻辑是要用各种方式证明产品具有安全性和有效性。
第一,产品要定型,也就是研发完成,要完全确定产品“用于什么场景,解决什么问题,能达到什么效果。”
第二,创新申报。药监局对新品类医疗器械设置了“创新医疗器械”的绿色审查通道。
进入审查通道也需要申请和审查,一般是被认定技术上有创新性,同时又有比较重要临床意义产品,才有资格进入创新审查通道。
通过创新通道,药监局给予我们生产厂商更多交流机会,也会在审查注册过程中给一些优先权,以促进技术创新。
第三,注册检验,按照产品说明书检验产品是不是做到说明书中所说的要点。
第四,临床试验环节,注册的确认环节,确认和验证的区别在于,验证是 Whether we do the thing right,是检验设计结果是否被正确实现;
而确认是whether we are doing the right thing,是用户是否认为这个产品解决了问题。
所以,临床试验是非常重要的环节,临床试验设计的最核心目标,是在安全性、有效性两方面提供最严格证据。
以上内容都完成之后就可以提交注册材料,进入申报过程。
医疗器械注册申报流程是有比较详细的法规和规定的,建议大家在细节上注意每一个环节的要求、周期等,提升效率,减少等待时间,也降低风险。
下面报告产品注册时间线,大家可能觉得这是一个漫长时间,特别是对于初创公司来看,其他行业都认为这件事情是难以想象的。
我们也是经历之后才知道,注册过程有很多法规规范,现在也非常理解药监部门,是让技术能够安全给全社会带来福利,这都是非常必要的。
后面讲一下拿证环节中遇到的一些情况,分享一些心路历程,主要从三个方面讲讲感触:
第一,见证了人工智能医疗器械审查制度从无到有的建立过程,这可能说的不太准确;
第二,从生产者角度出发,在设计产品、规划注册过程中紧扣临床,能够取得更好效果;
第三,在法规约束下,我们来做创新,需要兢兢业业态度。
我们的产品送检非常早,2017年年底就已经讨论规划注册过程。
2018年1月,中检院尝试构建了眼底图像数据库,探讨在检验环节中测试产品性能。其中中检院对图像质量,格式、标注等作出了明确要求。
我们规划注册时,产品在全球都没有先例,甚至全球监管制度也在探索,后面,国内监管制度发展就进入快车道。
《深度学习辅助决策医疗器械软件的审评要点》正式文档在2019年7月份发布。
同时,药监局信息中心也征集了相关医院和厂商共建人工智能医疗器械创新合作平台;这个平台公共评测服务技术方案基本是按照咨询意见来实施。
到2020年9月,药监局发布了《人工智能医疗器械质量要求与评价》相关的征求意见稿。
我们研发团队认真提供了反馈,中检院老师也对反馈给予了肯定,最终在2021年6月,《人工智能医疗器械注册审查指导原则》征求意见稿出来,同期三类注册证也到手。
这个过程中有很多艰辛和曲折,我从三个方面有所体会,第一,功能设计要针对临床问题;第二,数据采集要反映临床实际;第三,模型性能要接受临床检验,下面再说得细致一点。
第一,功能设计针对临床问题,当AI给出 “转诊”与“不转诊”建议时,糖网筛查需要功能就已经完成80%。
但临床对患者转诊建议是有紧迫与不紧迫的区分:轻度不需要转诊;中度需要在一个月或者两个月之内转诊,具体由眼科医生来确认;重度要两周之内就要完成转诊,否则它的进展对视力的损伤风险会比较大;
第四期需要立即转诊,英国筛查要求中要求48个小时之内去看眼科大夫,并且确定后续的处置方案。
在产品功能设计的时候,就需要把这一点考虑进来。同时,因为需要收集标注数据,医生阅片就必须提前考虑疾病严重程度,这种思考使得后续转诊还是不转诊更加一致。
第二,产品功能是阅片关注区域的提示,现在诊断必须由医生来完成,不能只用辅助诊断。
医生只是判断是否采纳辅助诊断建议,我们就要给出充足的建议理由。眼科医生看眼底片是非常细致的,我们不提示,他会花更多时间细节,一定找到新生血管或增殖膜位置。
如果产品能够一下指出来,就可以节省医生搜索图像寻找病灶区域的时间。
临床试验数据分析表明,产品提示区域中的病灶,对金标准诊断结果的解释水平超过90%。
还有图像质量的自动检测,在实际筛查场景中,眼底照片有可能质量不足,例如受白内障等因素影响。
这时,因为图像质量偏离了临床诊断标准的要求,基于低质量图像的AI的建议,会增加医生误判的风险,我们产品应当提示没拍好,并告知造成质量不足的可能原因。
例如患者白内障比较严重,或瞳孔比较小;就可以现场提示重拍。
第三,数据采集要反映临床实际,在训练模型把样本病例交给模型做示范,尤其是病症比较轻、不典型情况;在盲态阅片临床试验中,灵敏度特异度都在93%左右。
安全和有效是医疗器械的生命线,我们所有法规,所有内部管理质控都是为了安全有效。
为此,我介绍一下致远慧图保证产品质量安全的一些经验和感触。
第一,研发团队上,研发团队都是学人工智能图像处理的,他们也要认真学习法规,只有研发团队熟悉法规、研发过程和结果合规才有基础;
法规团队、注册团队也必须深入理解产品所用的技术,这样才会在注册过程中提前规划产品注册策略,注册效率才能提高。
第二,临床试验设计的严谨,只有在产品定位准确、功能明确,才能设计出高质量临床试验回答安全性和有效性问题。
在临床试验方案确定之前,往往需要预试验确定入组标准、样本量等环节。
第三,认真对待专家会发布意见,专家会是技术中心药监局向专家咨询关于这个产品的意见。
作为生产厂商,为了咨询会能够顺利进行,对于专家会上的问题,进行认真准备,从技术和法规两个层面推敲它。
如果我们有机会系统报告和阐述产品情况,一定会多次演练并模拟问答;
有时候同事之间甚至会被问很尖锐的模拟问题引起非常激烈交锋,但这样一个过程之后,对法规产品的各方面与法规适配情况,与审评或专家的沟通就会顺畅很多。
以上关于研发注册过程的体会,我把它归纳成三个方面。
一,研发和注册以产品为本,具体就是医工结合,紧密联系临床,着眼临床需求,严肃医疗,医疗行业问题都是非常严谨非常专业的。
现在公司办公室里最多的书不是深度学习,而眼科专业书籍,我们希望每一个产品经理都成为产品所在眼科领域的小小专家;
二,法规为纲,所有内容都要依法依规,基于法规要求,对产品的临床定位、所解决的临床问题、可能产生的临床风险,与相关法规要求,理解上都会持续不断地明确,持续不断深入,并最终体现在产品安全有效性提升上;
三,管理为魂,内部规范流程要逐步建立起来,形成执行习惯,注册和研发两个团队要互相勉励,互相促进。
法规框架约束下进行创新是一件有挑战的事情,需要技术团队给自身划定界限,也需要法规团队理解产品技术创新的初心和目标。
作为场上队长,必须以身作则,从自己做起带头学法规,带头严谨地去做这个事情,不能为了方便就怎么样。
雷锋网:临床试验过程中,是否遇到设备差异导致的AI结果差异问题?后面是怎样解决的?
丁大勇:三中心盲阅片临床试验涉及到三家北京三甲医院,三家医院所用设备都不一样。
三家医院的数据上,产品表现没有统计显著性差异。
雷锋网:研发过程中标数据标注时间一般会花费多少?占比是多少?
丁大勇:糖尿病视网膜病变的标注如果带着病灶的话,可能一张片子要5分钟以上。
后来我们对标注工具进行了优化,也做了一些快速标记设定,后面就可以在2分钟左右完成。
标注分级与病灶耗时的占比没有具体统计,因为有时候分级很好判断,例如看到新生血管,直接就标出分级。
但如果想把病灶都圈出来,还得逐一去做,所以占比没有统计,可以想象一般情况下至少是1:3~1:4以上。
雷锋网:部门合规建设也有可以参考的体系文件吗?
丁大勇:合规建设没有可以参考的体系文件,体系文件都是按照原始法规条文从零开始建立体系,没有可以参考的文件。
人工智能医疗器械与传统医疗器械不一样,对数据要求;我们使用的研发工具也是自己研发的,没有体系可参考,很多现行基本上都是在研读法规中摸索构建出来的。
雷锋网:训练数据集需要按地域分布采集东南西北中多家中心的吗?
丁大勇:训练数据集是来自多家中心的,也可以坦言地点上的分布也没法顾及到东南西北;特别是偏远整个医疗水平恐怕也有问题。
但是大城市医院的片子,患者都来自四面八方,所以地域代表性还是足够的。
雷锋网:做临床试验时,如果多个医生标注的金标准不一样怎么办?
丁大勇:临床试验方案中是有明确规定的,各位金标准专家独立阅片之后,对于存在差异病例大家会坐在一起讨论决定。
如果专家达不成一致,就由临床试验的PI来做决定。
雷锋网:有的临床设计是人+AIvs人,有些是AIvs金标准,主要是和软件功能形态有关吗?
丁大勇:后者是单目标值法,应用中有很大风险和局限,特别在没有成熟可参考产品品类上,设置单目标值依据就会有问题。
例第二款产品——多病种的辅助诊断,就采用这个“人+AI”与“人”的优效性对照。
选择何种临床试验的类型,既与产品功能形态辅助诊断有关系,也与试验实施时的历史条件有关——整个领域对如何设计试验,理解都在不断地加深。
雷锋网:请问注册需要哪些关于数据方面的记录?
丁大勇:很多,没有办法去一一列举,可以说审批要点的每个字都要去落实。
雷锋网:训练模型需要多大数据集?这是来自临床,还是经过一定筛选?
丁大勇:训练集数量跟我们要解决的问题复杂程度有关系,这不能一概而论。
数据集是直接来自临床场景,按照一定规范分解成测试数据集、训练数据集、和验证数据集。
收集数据过程需要有筛选,筛选之后,数据集应仍然能保留我们要解决的临床问题主要特征。
就像刚才提到的,筛选是把拍摄质量差、无法做出可靠诊断的图像剔除;对于拍摄质量合格,而仅因为病症轻微或病症不典型造成医生之间判断不一致的病例就不应当筛出去。
我们是由医生专家们开阅片会,决定那些数据诊断金标准,最终这样做出来的效果还是不错的。
雷锋网:功能是二分类还是五分类,临床方案对这两种功能(的设计)会不同吗?
丁大勇:会不同,临床实验逻辑是要证明产品的安全有效,什么叫有效?我们自己声称的功能有效就叫有效。
如果我们的产品的主要功能是提供关于“转诊与非转诊”的建议,那么它就是二分类;如果主要功能是要做疾病进展程度的判断,按照国际标准的0到4级,那就是五分类。
雷锋网:公司是否有进军海外市场的计划?海外是否有对标产品?
丁大勇:我们已经出海,产品在欧洲已经在试用落地;此外,在美国我们的临床试验也在推进过程当中。
在海外是有对标产品的,目前包括IDx-DR和EyeArt。
雷锋网:研发到什么情况下才能称之为产品定型?
丁大勇:产品定型问题是很专业,这得联合法规方面的同事回答。
纯粹技术角度来讲,实现了设计目标,并通过多种内部测试能稳定达到目标,就可以认为基本定型。
雷锋网:指定的相机型号有哪些?一定要临床验证的型号才可以吗?未来新的型号怎么办?
丁大勇:所有注册证上允许使用的型号或推荐型号都必须有明确证明过程。
这个证明通过综合研发过程中所有相关证据完成,包括临床试验当中的证据,也包括测试数据,还包括补充的验证数据。
从目前的实践上来看,药监局要求所有证据总量加起来要超过一定值。注册完成之后,如果想增加推荐相机型号,就需要走变更流程,需要提交增加的相机型号适用性证据。