雷锋网消息,近日,四川省人民医院的刘晓岗主任带领团队,与哈佛医学院贝斯以色列女执事医疗中心的研究人员合作发表了一篇论文。这项研究是第一项使用基于深度学习的高性能CADe系统的前瞻性随机对照试验,以帮助内镜医师检测患者的结肠息肉。
实验中发现,与标准结肠镜相比,AI系统辅助的结肠镜检查,查出的ADR(腺瘤检出率)增加了近50%。每位患者检出的平均腺瘤数也增加了——AI检查出了更多的较小腺瘤。
在小组的初步研究中,该算法的敏感性为94.38%,特异性为95.92%,受试者工作特征曲线下面积(AUC)为0.984(越接近1,说明准确性越高)。此外,通过使用多线程处理系统,AI对实时视频的处理速度能够达到每秒至少25帧,延迟时间为76.80±5.60毫秒。对于内镜医师来说,检测延迟几乎不明显。
这是一件非常难的事情。因为,从静态影像到动态视频,对于AI系统来说难度是指数级增加的。但是,可贵之处在于,相比于静态的影像,动态的视频更符合医生的实际工作场景,因此研究也更脚踏实地。
至于为什么要选择结直肠癌作为研究的对象,这个可能跟疾病本身有关。
根据国家癌症中心全国肿瘤登记数据报告,我国城市和农村地区结直肠癌发病率分别位列恶性肿瘤的第2位和第5位,死亡率分别位居第4位和第5位。结直肠癌的特点在于,它是一种早期和晚期死亡率相差极大的癌症,早期结直肠癌生存率能够达到90%,几乎只要发现就能痊愈;而晚期结直肠癌生存率却只有仅仅20%。
结肠镜检查是筛查CRC的金标准,结肠镜检查通过检测和切除腺瘤性息肉,可以降低结直肠癌的发生率和死亡率。在过去的半个世纪里,成人的死亡率和CRC发病率急剧下降(分别为51%和32%),主要就是由于CRC筛查和腺瘤性息肉的切除。因此,及时发现与鉴别结直肠息肉,提升结直肠肿瘤早筛水平,成为对抗结直肠癌的关键。
此外,有证据表明,ADR(腺瘤检出率)每增加1.0%,间隔CRC风险降低3.0%。然而,息肉有高达27%的遗漏风险,医生视野内无法识别的息肉是一个需要解决的重要问题。一些研究表明,在检查中增加一位医生可以增加息肉检出率(PDR),但这种策略在提高ADR方面仍存在争议。
因此,团队研究了基于深度学习的自动息肉检测系统对息肉检测率和ADR的影响。理想情况下,实时自动息肉检测系统的性能可以接近于专家内镜医师的能力,帮助内镜医师以比人更可靠的方式检测可能对应于腺瘤的病变。
据雷锋网了解,这次前瞻性研究被设计为随机对照试验,研究在四川省人民医院进行,共纳入了1058例患者。患者被随机分组进行诊断性结肠镜检查,一组接受标准结肠镜检查(536例),另一组接受AI系统(实时自动息肉检测系统)辅助的结肠镜检查(522例)。来自胃肠病学部门的8名医生参与了这项研究,其中包括两名高级内镜医师(> 20000例结肠镜检查),两名中层内镜医师(3000至10000名结肠镜检查)和四名初级内镜医师(100至500名结肠镜检查)。
在AI辅助的组中,结肠镜连接到AI系统,监视器上会显示用蓝色空心框圈出的息肉位置,同时发出警报声,医生主要负责盯好监视器,在警报声提示检测到息肉时对息肉进行评估,判断它是否是息肉,是否是腺瘤性息肉。
深度学习架构。检测算法是基于SegNet架构的深度卷积神经网络(CNN)。数据流是从左到右:结肠镜检查图像被顺序地扭曲成二进制图像,其中1代表息肉像素,0代表概率图中没有息肉。然如输出中所示,CADe监视器上有一个空心跟踪框
从结果来看两组共检出了767个息肉,其中有422个腺瘤,对照组和AI组的PDR分别为0.29和0.45。
在良好的肠道准备情况下,AI辅助组的ADR显示出比常规组高6%的趋势。AI系统显着增加ADR(29.1%vs20.3%,p <0.001)和每位患者的腺瘤平均数(0.53vs0.31,p <0.001)。这是由于发现了更多的小腺瘤(185vs102; p <0.001),而较大的腺瘤(77vs58,p = 0.075)的检出数量虽然也有差距,但是不具有统计学意义。此外,增生性息肉的数量也显着增加(114vs52,p <0.001)。
从检查所需时间上来看,AI组所需的时间为6.89分钟,只是比对照组的标准结肠镜组长0.5分钟,也都没有出现与肠镜检查相关的并发症。
此外,经过统计,AI辅助组共有39个误报,每个结肠镜检查平均误报0.075次,基本上影响很小。在AI辅助组中检测到的所有息肉中,自动息肉检测系统没有遗漏任何息肉。
从几个维度可以看出,刘晓岗主任领导开发的这款AI系统,在结直肠癌的筛查领域表现已经足够优秀。但是,研究团队也总结了这项研究中有待改进的地方。
首先,系统的确切贡献不太好评估。由于“竞争精神”,被观察的行为也可能影响实验组的ADR。这一机制可能解释了AI组中潜在的混杂因素,因为内窥镜医生可能在已知的观察环境中更专注。将来,可以设计双盲研究来研究该系统在增加的腺瘤检出率中的确切作用。这样的研究还可以帮助确定内窥镜检查者和系统是否同时检测到息肉,或者内窥镜检查员一开始是否错过了息肉,这是当前研究没有设计解决的问题。
第二,缺乏外部有效性。研究的基线腺瘤和息肉检出率不如西方国家报道的高。多种因素可能有助于这一发现,包括中国和西方人群之间的遗传、饮食、生活方式和习惯差异,以及两组间结肠息肉/腺瘤发病率的差异。因此,这项研究的结果可能不能推广到世界上基线ADR较高的地区。需要进一步研究该系统在这些领域的适应性和有效性。
第三,虽然假阳性率很低,但一些假阳性率出乎系统设计者的意料,这是由于检测到药物胶囊、局部出血部位或未消化的碎片而发生的,可能会在手术过程中造成干扰。这可以通过向当前系统添加足够的培训数据来纠正。
第四,这项研究没有控制参与内镜医师的疲劳程度,这可能是影响ADR的独立因素。需要进一步的研究来研究这种CADe系统对不同疲劳水平的有效性。
第五,由于初级内镜医师对结肠镜检查的样本量不足,需要进一步研究以显示该CADe系统在不同培训水平中的作用和有效性。
最后,该研究使用奥林巴斯结肠镜检查设备进行。因此,还应探索该系统对其他公司制造的设备的适应性。
总之,这项研究表明,基于深度学习的AI系统系统可以让低流行ADR区域中结肠直肠息肉和腺瘤检测率的显着增加。鉴于其高准确性、保真度和稳定性,当前的AI系统可以更好地适用于当前临床实践中以更好地检测结肠息肉。在医生和工程师的共同努力下,在众多的病种筛查领域里,AI辅助系统又多了一块“用武之地”。雷锋网