中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

2019/11/13 10:57

上消化道癌症（包括食道癌和胃癌）是世界范围内最常见的恶性肿瘤。

据国家癌症中心统计数据显示，全球约50%的上消化道癌（包括食管癌、胃癌等）发生在中国，其中超过85%的患者在确诊时已为中晚期，每年因此导致的死亡病例超过40万，但如果能早期发现，5年生存率可以超过90%。

为了克服这一挑战，许多国家已经制定并实施了上消化道内镜指南和技术，如窄带成像和共焦激光内窥镜，从而提高了早期上消化道肿瘤的检出率。但是在内镜检查中，可疑上消化道癌症被漏诊的风险在病人数量少的医院、欠发达地区或偏远地区，甚至在经常进行内镜检查的国家可能仍然很高。

人工智能在医学的各个领域展示出了非常大的潜力，临床上，内窥镜人工智能最重要的用途是帮助区分肿瘤性病变和非肿瘤性病变。尽管人工智能在上消化道癌症诊断中的应用已发表了令人鼓舞的初步结果，但由于研究设计有待改进（如单中心研究、小样本和回顾性分析），它们的临床价值比较小。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

因此，中山大学肿瘤防治中心主任、院长、所长，华南肿瘤学国家重点实验室主任徐瑞华教授带领由数十位专家组成的团队开展了多学科联合攻关，成功自主研发出了一套上消化道癌内镜AI辅助诊断系统，利用来自6家医院的真实内镜成像数据来检测上消化道肿瘤。

雷锋网了解到，团队的这款AI诊断平台名叫GRAIDS，经临床实践数据验证，对上消化道肿瘤的诊断敏感性高达90%以上，优于非专家级别内镜医师。

2019年10月，相关研究成果《人工智能实时辅助内镜早期诊断上消化道肿瘤：一项多中心、病例对照、诊断性研究》正式在线发表于全球顶尖学术期刊《柳叶刀·肿瘤学》上。

这项多中心、病例对照、诊断性研究在中国六家医院进行，回顾性地从国立中山大学肿瘤中心（广州）的影像数据库中获得内镜图像，用于GRAIDS的开发和验证。此外，团队还开发了一个CAD系统，实时识别上消化道癌性病变，用于常规内镜检查。安装CAD系统的计算机直接连接到内窥镜装置上，从而允许在内窥镜检查期间提供全自动辅助诊断。

从2018年7月21日起，GRAIDS在线发布，并在sysucc（中山大学肿瘤防治中心）的内窥镜实践中得到了应用。

以下为论文详细内容，由雷锋网AI掘金志学术组编译和编辑。关注AI掘金志公众号，在对话框回复关键词“中山大学”，即可获取原文PDF。

介绍

这项多中心、病例对照、诊断性研究在中国的6家不同级别的医院（中山大学肿瘤防治中心、粤北人民医院、梧州红十字医院、江西肿瘤医院、普宁人民医院、揭阳人民医院）进行。从所有参与医院检索到18岁或18岁以上未进行过内镜检查、可持续参加研究患者的图像。所有经组织学证实为恶性肿瘤的上消化道肿瘤患者（包括食管癌和胃癌）均符合本研究的要求。只有带有标准白光的图像才被认为是合格的。

我们将中山大学肿瘤中心的图像随机（8:1:1）分配到graids开发的训练和内部验证数据集，内部验证数据集用来评估GRAIDS性能。采用中山大学肿瘤中心（国立医院）的内部和前瞻性验证集和5家基层医院的额外补充验证集对其诊断性能进行评估。

GRAIDS的诊断能力也与具有三个不同专业级别的内窥镜医师进行了比较：专家医师、主管医师和实习医师。GRAIDS和内窥镜对癌性病变的诊断准确度、敏感性、特异性、阳性预测值和阴性预测值，采用 Clopper-Pearson方法计算95% CIs。

发现

我们用来自84424人的1036496张内镜图像进行GRAIDS的训练和验证。

上消化道肿瘤的诊断准确率在内部验证集中为0.955（95%ci 0.952-0.957），在前瞻性验证集中为0.927（0.925-0.929），在5个外部验证集中为0.915（0.913-0.917）到0.977（0.977-0.978）。GRAIDS的诊断敏感度与内窥镜检查专家相似，与内窥镜普通医师和实习医生相比，graids具有更高的敏感性。

GRAIDS的阳性预测值为0.814（95%ci 0.788-0.838），内窥镜专家为0.932（0.913-0.948），内窥镜普通医师为0.974（0.960-0.984），实习内窥镜师为0.824（0.795-0.850）。GRAIDS阴性预测值为0.978（95%ci 0.971-0.984），内窥镜专家阴性预测值为0.980（0.974-0.985），内窥镜普通医师阴性预测值为0.951（0.942-0.959），内窥镜实习医生阴性预测值为0.904（0.893-0.916）

方法

内镜和图像质量控制

所有图像均以高分辨率拍摄，但使用不同的内窥镜和视频系统。所有上消化道内镜图像均以jpeg格式存储在6家医院的影像数据库中。只有带有标准白光的图像才被认为是合格的。不包括染色图像、窄带图像、因停顿、模糊、散焦、粘液和空气吹扫不良而产生的低质量图像以及非内窥镜图像。

来自Sysucc的8位经验丰富的内窥镜医师对所有图像的质量进行了评估，每人至少有5年的经验，并进行了3000多次检查。所有上消化道肿瘤病灶均由同一组内镜医师手工标记。他们仔细地标记每个癌灶的边界。那些在解剖位置上与病理报告不符的内镜图像被丢弃。

我们将来自6家医院的相同数量的图像分配给4组经验丰富的内窥镜医师（每组2名内窥镜医师）进行质量控制、标记和勾画。同一组的两位内窥镜医师在标记和勾画方面进行了合作。勾画过程中，一名内窥镜医师在另一名内窥镜医师的监督下进行勾画。只有当来自同一组的两位内窥镜医师达成共识时，图像选择、标记和勾画才最终确定。

GRAIDS算法开发

将来自sysucc的图像（8:1:1）随机分配给用于GRAIDS开发的训练和内部验证数据集，以及用于GRAIDS性能评估的内部验证数据集。GRAIDS的算法基于DeepLab’s V3+ 的概念，并包含一个编码器和解码器模块。模型有一个输入和两个输出，模型输入上消化道内镜图像。

第一个输出是一个标准的两分类任务，用于确定输入图片是否包含肿瘤。第二个输出实现了一个分割任务，该任务标出输入图像的肿瘤区域。采用四个内窥镜组（每个组由两个内窥镜医师组成）的标记和勾画数据作为训练样本的金标准。学习曲线用来表示图像分类效果，交叉联合（IOU）代表模型的图像分割性能。

GRAIDS算法验证

我们首先使用内部验证数据集和来自sysucc的前瞻性验证数据集验证GRAIDS在识别患者上消化道肿瘤方面的性能。然后我们使用来自五家参与医院的外部验证数据集评估GRAIDS的稳健性，每一家医院都有少量的上消化道癌症患者。

为了进一步的性能评估，我们从前瞻性验证集中随机选择了组织学确诊的上消化道肿瘤患者的图像子集。三位不同专业程度的内窥镜医师（专家、主管和实习医师）被要求独立完成相同的测试图像检测，并将其结果与GRAIDS的结果进行比较，患者的人群信息和最终组织病理学结果对他们不可见。

这三位内窥镜医师都没有参与图像的选择和标记，在内窥镜检查人员进行评估之前，这些图像也被打乱和去除标记。内窥镜专家是一位在内窥镜检查方面有10多年经验的教授。内窥镜普通医师是一名主治医生，具有5年以上的经验，完成了临床和特定的内窥镜培训。内窥镜实习医师是一名有两年内窥镜经验的住院医师。

统计学分析

采用 Clopper-Pearson方法计算95% CIs，评价graids对癌性病变鉴别诊断的准确性、敏感性、特异性、阳性预测值（ppv）和阴性预测值（npv）。我们使用ROC曲线来显示深度学习算法在鉴别上消化道癌症患者与正常人的诊断能力。通过改变预测概率阈值，绘制真阳性病例比例（敏感性）与假阳性病例比例（1-特异性）的ROC曲线。ROC曲线下面积越大，诊断效果越好。所有统计检验均为双侧，显著性水平为0.05。用3.5.1版r软件进行统计分析。

结果

2009年1月12日至2017年9月30日期间，从Sysucc的上消化道内窥镜成像数据库获得了来自20352名参与者的314 726张图像（图1）。因病理诊断不明确，病理报告不清，排除1587例（7.8%）。在质量控制评估后，178282张图像中有21075张（11.8%）被丢弃，因为它们是质量差的非内窥镜图像，或者在解剖位置上与病理报告不一致。对于癌症患者，仅包括癌症病变的图像（n=39462）被纳入研究。对于没有癌症的参与者，117745张图片被用作对照组（图1）。对于前瞻性验证数据集，在2018年7月21日至2018年11月20日期间，在Sysucc前瞻性收集并标记4317张癌症图像和62433张对照图像。

在其他五个参与医院，在2018年7月21日和2018年11月20日之间，从粤北人民医院获得了2439张癌症和73015张对照图像，从梧州红十字医院获得5244张癌症和197588张对照图像，从江西肿瘤医院获得9712张癌症和112185张对照图像，从普宁市人民医院获得7095张癌症和286095张对照图像，从揭阳市人民医院获得4173张癌症和114993张对照图像。

总体而言，来自84424个人的1036496张内窥镜图像被用来开发和测试GRAIDS。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

上消化道肿瘤的患病率在训练组为50.2%（15040名患者中7557名），在内部验证组为51.0%（1839名患者中938名），在内部验证组为50.8%（1886名患者中959名），在前瞻性验证组为32.0%（1794名患者中574名）。江西肿瘤医院外部验证组9.2%（8634例中794例），粤北人民医院9.5%（4109患者中390例），梧州红十字医院4.8%（17239患者中830例），普宁市人民医院3.8%（26143患者中993例），揭阳市人民医院7.2%（7686名患者中有552名）（表1）。上消化道肿瘤的详细分期信息仅在前瞻性验证集可见。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

在176个epochs（整个训练集的迭代）之后，由于两个任务的准确性和交叉熵损失以及第二个任务中IOU都没有进一步的提高，训练过程结束。GRAIDS对上消化道癌病变的预测区域与内窥镜医师的标记区域有高度一致性。在内部验证集中，IOU中位数为0.737（IQR 0.579–0.848）。

GRAIDS在7个全部验证集中都准确地识别了上消化道肿瘤患者（表2）。在内部sysucc验证数据集中诊断准确度为0.955（95%ci 0.952-0.957），在前瞻性sysucc验证数据集中0.927（0.925-0.929，）。外部验证集中准确率分别为：江西肿瘤医院0.915（95% CI 0.913-0.917），粤北人民医院0.949（0.947-0.951）,梧州市红十字会医院0.977（0.977-0.978），普宁市人民医院0.970（0.969-0.971），揭阳市人民医院0.947（0.946-0.948）。在各验证集中graids的敏感性、特异性和npv均高于0.90。ppv的变化范围为从粤北人民医院的0.384（95%ci 0.372-0.396）到sysucc的0.889（0.878-0.899）（表2），但在所有验证数据集中，假阳性的比例不到10%。在Sysucc的内部验证队列和前瞻性队列中，最常见的假阳性原因是正常的解剖结构（贲门、幽门和角落）以及蠕动期间胃壁的抬高。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

同样，在五个外部验证数据集中AUC值也较高（范围从0.966 [0.965–0.967]到0.990 [0.990–0.991]；图2）。

Graids和内窥镜医师从前瞻性验证集中区分4532张图像子集（1102张[24.3%]癌症图像和3430张[75.7%]对照图像）的测试结果如表3所示。GRAIDS对上消化道肿瘤的诊断准确率为0.928（95%ci 0.919-0.937）。内窥镜检查中，专家级内窥镜检查的准确度在0.967（95%ci 0.961-0.973；p<0.0001）显著高于graids，而内窥镜普通医师的准确度为0.956（0.949-0.963；p<0.0001），内窥镜实习医师的准确度为0.886（0.875-0.897；p<0.0001）。三类不同级别医师和GRAIDS的特异性均大于0.90。

相比之下，不同级别内窥镜医师的灵敏度差异很大，GRAIDS的灵敏度与内窥镜专家相似（0.942 [95%ci 0.924-0.957]vs 0.945 [0.927-0.959]；p=0.692），明显高于内窥镜普通医师的灵敏度（0.858 [0.832-0.880]；p<0.0001）和实习医师（0.722 [0.691-0.752]；p<0.0001）。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

GRAIDS的ppv为0.814（95%ci 0.788-0.838），显著低于内镜专家(0.932 [0.913–0.948]; p<0．0001) 以及内镜普通医师(0.974 [0.960–0.984]; p<0．0001)。但与实习内窥镜医师相似（0.824 [0.795–0.850]；p=0.580）。与GRAIDS联合应用时，专家、普通和实习内镜医师的ppvs均显著下降（0.793 [95%ci 0.768-0.818]、0.812 [0.786-0.835]、0.747 [0.720-0.772]，所有p<0.0001）。NPV均较高，分别为：GRAIDS 0.978 [95%ci 0.971-0.984]），内窥镜专家0.980 [0.974-0.985]，内窥镜普通医师0.951 [0.942-0.959]，内窥镜实习医师0.904 [0.893-0.916]）及其组合（表3）。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

然而，GRAIDS能够识别大多数被内窥镜医师错误分类的癌症图像（内窥镜专家医师61张中43张[70.5%]、内窥镜普通医师157张中133张[84.7%]、内窥镜实习医师306张中266张[86.9%]；图3）。当与GRAIDS结合使用时，专家的灵敏度明显在数值上有所提高（0.984 [95% ci 0.973–0.991]，p<0.0001）。内窥镜普通医师和内窥镜实习医师的敏感度明显提高，升至与专家相似的水平（内窥镜普通医师0.978 [0.966-0.987]，P<0.0001；内窥镜实习医师0.964 [0.949-0.975]，P<0.0001）。

中国医生团队登《柳叶刀》期刊 | 6家医院合作的上消化道肿瘤内镜AI辅助诊断系统问世，敏感性超过90%

我们开发的GRAIDS算法能够每秒分析多达118幅图像（每张图像8毫秒），并在进行实时视频分析时每秒处理至少25幅图像，延迟小于40毫秒。

此外，我们开发了一个计算机辅助检测（CAD）系统，试图实时识别上消化道癌性病变，用于常规内镜检查。安装CAD系统的计算机直接连接到内窥镜装置上，从而允许在内窥镜检查期间提供全自动诊断协助。

图S5B和视频1-4展示了在内镜检查期间实时识别癌变的CAD系统示例。如图所示，当GRAIDS识别出一个恶性病变时，CAD系统会分割病变的边界，如蓝色所示，并在屏幕右上角警告内窥镜医师有可能出现恶性病变。当病变从屏幕上消失时，分割和警告信号同时停止。

我们为需要上消化道内窥镜检查的患者构建了一个基于云的多机构人工智能平台。该平台提供了两个关键的临床应用：第一，在内镜手术过程中实时检测上消化道肿瘤，以帮助加速图像检测，并帮助提高恶性病变识别的准确性。第二，存储静态图像，以便在检查后对可疑病例进行重新评估，从而有助于降低误诊和漏诊的恶性肿瘤的风险。

此外，我们还提供了一个网站，免费访问GRAIDS。临床医生和患者可以上传内窥镜图像，GRAIDS进行二次审查。网站上还提供了一个开放存取的内窥镜图像数据库，这将是内窥镜医师进行培训以及内窥镜-人工智能辅助医学成像领域研究人员的有用资源。

讨论

在这项研究中，我们使用一个深度学习语义分割模型来构建一个基于人工智能的上消化道肿瘤诊断系统。该系统通过来自84424个人的1036496张内镜图像进行训练和验证。六家医院中有不同数量的上消化道肿瘤患者接受内镜诊断。Graids在历史存储图像和前瞻性图像检测上消化道肿瘤过程中均具有较高的的准确性、敏感性和特异性。

上消化道肿瘤的内镜诊断是主观性的，很大程度上依赖于医生的技能和经验。窄带成像、共焦激光内窥镜检查和蓝色激光成像在鉴别癌性和非癌性病变之间具有潜力，但是由于光学图像判读所需的大量培训和专业知识，其临床应用受到了限制。

与此相反，GRAIDS不需要额外的培训，而且可以提高内窥镜非专家级别医师的能力（普通医师从0.858到0.978,实习生从0.722到0.964），使其提高到接近专家水平（0.967）。因此，对于中国或资源有限的发展中国家，在城乡医疗资源分布不平衡的情况下，GRAIDS可以帮助弥补国家级医院和初级保健医院之间的癌症诊断水平的差距。

GRAIDS的ppv低于专家和普通内窥镜医师，GRAIDS与三种不同级别的内窥镜医师结合可以降低ppv。在当前的实时内镜检查中，GRAIDS将检测没有由内镜专家医师勾画轮廓的可疑癌症病变，这可能会进一步增加假阳性的风险。然而，GRAIDS假阳性的主要原因是幽门、胃角、粘液等正常结构或成分，以及蠕动时胃壁的抬高的误诊。由于这些正常的结构或改变很容易被内窥镜检查者识别，因此在实践中可以避免误诊。

因此，我们推测在实时内窥镜检查中，内窥镜医师使用GRAIDS进行检查时，假阳性病例的比例将低于计算值。此外，因GRAIDS的敏感度高，可以降低漏诊癌症病变的风险，从而可以早期诊断癌症，并且它还可以降低治疗上消化道癌症的高支出。

现有的上消化道内镜研究由于回顾性、小样本量、单病种调查和同等级医院的单一机构研究等缺点而停滞不前。通过比较，GRAID是一个使用百万以上的图像队列进行开发和验证的，数据来自不同级别医院，在六个回顾性验证集中显示了检测上消化道肿瘤的高准确性（0.915–0.977）。这有力地表明了该系统在真实场景下的通用性。此外，小于40毫秒的成像延迟也使得它比现有的模型在图像检测方面更为有效（每秒118图像vs 41×425和每秒48×926图像）。

基于GRAIDS检测上消化道肿瘤的准确性和有效性，我们构建了一个基于云的多机构人工智能平台，在内镜手术和术后成像检测中提供快速准确的实时帮助。

我们还建立了一个用户友好型网站，为患者和临床医生提供免费的远程医疗帮助，以加速内窥镜图像的检测。截至2017年7月19日，中国南方肿瘤联盟（ccsca）成立，旨在消除国家级医院与基层医院在肿瘤管理方面的差距。

目前，GRAIDS正在sysucc及其筛查中心的内镜临床工作流程中常规使用，并进行实时评估，ccsca的其他合作医院很快将实施GRAIDS，为人工智能辅助上消化道肿瘤筛查和诊断提供免费通道。

尽管取得了这些显著的成果，GRAIDS还有一些局限性值得强调。

首先，这项研究只使用白光图像，因为这类图像用于常规检查和资源有限的地区。

其次，对训练集和外部验证集进行回顾性标注，这可能会导致一定程度的选择偏差，但前瞻性验证集表明，这种限制可能并不突出。

第三，我们没有使用特定的方法来处理来自同一视频序列的不同位置的图像，这可能会产生一些偏差。尽管如此，GRAIDS在参与医院中显示出令人满意的准确性，从而证明了该系统的普遍适用性。

第四，训练集和验证集中只采用高质量内窥镜图像来研究GRAIDS的诊断效果。

第五，在临床应用中，GRAIDS通过一个大型中国队列进行训练和验证，但在其他人群中的疗效尚待调查。

总之，我们开发了一个基于人工智能的系统，该系统使用了来自不同层次医院的多种内镜图像，能够对上消化道癌症进行高准确度的诊断，其灵敏度接近内镜专家医师，优于内镜普通医师。GRAIDS可以辅助内镜非专家医师，将其诊断准确度提高到与专家接近的水平。此外，GRAIDS可以改进上消化道肿瘤诊断与筛查的有效性。雷锋网