思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

2019/06/20 10:21

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

过去几年，AI在医学影像方面取得了诸多成果。在影像学科的临床工作流程中，肺部病变的良、恶性鉴别诊断，已经成为AI创业公司争先恐后涌入的赛道。但是，多数创业公司基本上是停留在后端的疾病诊断层面，在此之前的图像采集、图像呈现阶段，其实都有文章可做。

雷锋网了解到，近日，南京鼓楼医院医学影像科张冰团队，在柳叶刀子刊EBiomedicine发表了一则AI医疗的新成果，直面影像科医生工作流程前端的痛点问题。

该团队选择了一个全新的切入点——从临床影像工作全流程角度出发，提出了一种基于深度学习的智能成像排版系统（IILS），系统包括AI肺结节检测和分类和自适应排版工具，用于结节识别的成像报告标准化和工作流程优化。

成人的典型胸部CT扫描有大约三百张图像。然而，最终排版仅约为四十幅图像。因此，大约87.7％的图像被忽略了。特别是当肺结节的直径小于1 cm时，相应报告不能与排版结果100％匹配。

据雷锋网了解，团队提出的胸部CT排版工具，使用来自11205名患者的CT成像数据，可以适应全自动或者半自动的影像学图像的排版问题。以往人工诊断到排版需要花费约2小时的时间，在这个工具的帮助下，时间可以降低到约100秒。

以下为论文详细内容，由雷锋网AI掘金志学术组编译。关注AI掘金志公众号，在对话框回复关键词“南京鼓楼”，即可获取原文PDF。

1、引言

临床任务的一个典型例子是，分类并生成与肺结节的诊断密切相关的胸部CT图像的布局。在筛查检测和随访期间，目前的日常工作流程中仍存在五个问题。

1、成像报告标准化缺乏：由于没有标准化、科学验证的方法评估结节，试验放射科医师制定了诊断随访的指南，但没有强制要求评估方法（图1）。

2、缺失结节：如果干激光胶片用作成像信息载体，则无法显示与报告中的描述相对应的结节（图2），这是一个常见问题。

3、缺少关键图像：在从CT扫描仪获取图像之后，大量图像不加选择地输入到PACS中。此外，许多临床医生对成像知识相对不熟悉，需要花费大量时间和精力来浏览这些缺乏关键信息的复杂图像，更不用说使用智能手机或平板电脑来检查这些图像。而且，许多无效图像经常出现在一系列图像中（图2）。因此，治疗过程极其低效。

4、访问来自其他医院的图像困难：如果患者需要他或她自己的图像，图像通常在光盘（CD）上刻录或通过便携式硬盘驱动器传输。然而，许多现代计算机没有配备CD驱动器或医院禁止使用计算机的通用串行总线（USB）接口。因此，患者在不同医院都要进行扫描成像。

5、缺乏对临床医生和患者需求的考虑（图2）：作为放射科医师，帮助他人更容易阅读和理解成像结果的机会尚未得到充分利用。因此，迫切需要具有关键图像的电子报告和可视化结构化报告来解决这些问题。

当前，AI的应用似乎忽略了两个事实。首先，高质量的标准化图像是人工智能开发的基础，其次，AI可以接管简单和重复的工作。

在这项研究中，我们寻求开发基于人工智能技术和自适应布局工具融合的智能成像排版系统（IILS），以建立日常工作的新流程，并为放射科医生和临床医生提供标准化图像和报告。同时，我们从三个方面评估IILS的综合实力，包括i）IILS与临床专家之间结节诊断效率的比较； ii）IILS可以优化临床工作流程的程度；iii）IILS的交叉制造适用性（cross-manufacture applicability）。

总之，我们认为AI技术可以通过串联连接集成到放射学工作流中，而不是基于简单的并行关系来遵循传统的工作流程。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图2.当前的手工选片过程和日常工作中的相关问题。例如，成人的典型胸部CT扫描有大约三百张图像。然而，最终排版仅约为四十幅图像。因此，大约87.7％的图像被忽略了。相应报告不能与排版结果100％匹配，特别是当肺结节的直径小于1cm时。以GE的CT扫描方法为例，在日常工作中使用手动图像排版时，通常会忽略6（层）×1·25 mm（厚度）= 7·5 mm范围内的肺组织。因此，当医生获得最终的图像时会遇到以下问题：缺乏成像报告标准化、缺失结节、缺乏关键图像以及缺乏对临床医生和患者需求的考虑。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图3. IILS的组成以及如何将其整合到当前的成像过程中。新的IILS包括以下部分：一个是AI肺结节检测和分类，另一个是自适应排版工具，包括我们团队发明的自动排版和可视化结构化报告生成。为了确保图像质量和结果，我们有一位放射科医生，他通常负责编写报告，仔细检查自动生成的结构化报告和图像排版结果。成像部门日常工作的整个过程包括以下关键步骤：i）获取：从不同临床科室的患者收集图像信息; ii）排版：包括日常工作的手动排版和图像管理; iii）诊断：放射科医师的图像诊断，预测和评估。新型智能系统的应用通过串联而非并联连接集成到放射工作流中。

2、材料与方法

2.1 实验软件和硬件

本文中的模型均在DGX1平台上进行训练。(NVIDIA DGX1 system, 8× Tesla V100 GPUs, 128 GB total system GPUMemory, dual 20-core Intel Xeon E5–2698 CPU v4 2.2 GHz, SantaClara, California, USA)

2.2 实验模型和项目细节

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图4：数据流图显示了我们检测结节和分类良性或恶性病例的方法。本研究采用的数据是从2016年10月到2018年11月，从五个主要的不同CT制造商处获得的11205名患者、共3527048张胸部CT扫描图像。

训练过程分为两部分，分别由两个训练队列组成。通过卷积神经网络（CNN）获得两个模型，通过5折交叉验证进行性能评估，然后合并形成IILS的第一层，即用于检测结节和分类病例的筛选部分。我们将最终的两个模型部署到包含1965个病例的独立队列中，通过六位临床专家对结节数量的一致性分析，以显示我们IILS的可信度。

八名有3到25年胸部CT经验的专家作为检查员参加了会议。为了在临床专家的背景下评估我们的卷积神经网络，我们使用1965名患者的独立测试集来比较我们的网络决策和人类专家的决策。随机选择作为受试者的1965名患者进行读者间和读者间再现性研究。

所有肺结节的数量的确定、良性和恶性结节的判断由六位专家检查两次，间隔为1个月，以最小化记忆偏差。所有决策均由六位专家做出，用于读者间的再现性分析。加权误差评分用于反映假阴性结果（未做出决定）比假阳性结果更有害。使用这些加权惩罚点、计算模型和每个人类专家的错误率。

即使患者有较大的病变，我们也仅包括小于30 mm的结节，其大小相当于约30 mm的平均直径，因为肺结节的定义是直径小于3cm的病变。我们纳入了疑似转移的结节以及可能具有良性组织学特征的结节。然而，排除了粟粒性结核、间质病变、结节病和重症肺炎。

以下参数用于评估结节特征和图像质量对观察者一致性的影响：总结节大小（最大直径，毫米）、结节类型、良性或恶性以及肺实质内结节的密度。从数据库中提取参数结节大小、良性或恶性和类型。结节的密度由没有参与阅读过程的专家（H.Y 和H.W）测量。将两个约1cm的感兴趣区域放置在结节中的两个均匀区域中，并且两次测量中平均的Hounsfield units标准偏差是密度的度量。

2.3 病人分类

训练过程中的用例随机分为训练集80%和验证集20％（图4）。训练集用于训练算法，验证集用于模型选择，测试集用于评估最终选择的模型。在确定百分比分割时，目标是为算法保留足够的数据以进行训练，但是具有足够的验证和测试用例以保持模型准确性的合理置信区间。该数据集代表了在参与诊所提供和接受治疗的最常见的实性、钙化或磨玻璃结节患者。

2.4 图像标注

在训练之前，每个图像都经过分层分级系统，该系统由多级训练有素的评分者组成，他们具有逐级递增的专业知识，可用于图像标签的验证和校正。导入数据库的每个图像都与患者最近诊断的标签相匹配。第一级评分员包括具有呼吸系统和成像基础知识的成员。这一级评分员进行了初步的质量控制，并排除了包含严重伪影或显着降低图像分辨率的胸部CT图像。第二级评分员由两位专家组成，他们对通过第一级的每张图像进行独立评分。记录胸部CT图像上是否存在实性，钙化或磨玻璃结节和其他可见的病变。最后，第二层由两名高级呼吸和成像专家组成，每位专家拥有超过15年的临床呼吸和成像经验，独立验证每张图像的真实标签。所有图像的验证子集由两名专家分别评分，不一致的临床标签由由高级专家仲裁，以解释评分中的人为错误。

2.5 软件支持

软件系统的开发在Linux Ubuntu 18.04环境下进行。Pycharm 和 VS Code用作开发的IDE。Chrome调试器用于测试和调试UI / UX。软件的实现细节是保密的，以下部分主要描述了实现的设计和逻辑。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图5：排版示例加上可视化结构报告以及与传统排版和报告的比较。

（a）使用IILS选择后的新图像排版。新的排版图像被分为三个部分（两个红框的区域，代表关键图像所在的区域）。显然，与（c）相比没有无效图像（标有橙色下划线）。排版第一部分开头的五个小框依次显示：1）肺窗条件下结节的最大横截面切片的图像（WW：1500; WL：-500），2）具有长径和短径测量数据的图像，3）纵隔窗口条件下的结节图像（WW：350，WL：50），4）结节的冠状图像重建，5）结节的矢状图像重建。第二部分是在纵隔窗口条件下每层间隔的一组图像。最后一部分是一组薄层肺组织图像，大约分为六层。另一个便利是，片子上任一单元格中的每个图像都可以通过其切片ID进行跟踪，并通过双击它来重定向到图像集中的原始位置。还自动生成与片子相关的可视化结构报告。有关详细信息，请参见视频2。

（b）：如果患者没有肺结节，IILS给出的排版和报告将与传统系统给出的相似。

（c）：使用传统的手工排版形式，表格分为两部分。前部包括纵隔组织图像，后部是肺组织图像。传统排版格式的主要问题是缺少关键图像，各种无效图像（一些带橙色下划线的图像），以及缺少链接功能。相关报告填充了文本，没有生成结构化报告。

2.6 自动排版

通过将固定输出过程分成以下子任务来执行自动排版：1，验证; 2，输出。在验证任务中，我们的程序首先处理最重要的结节，生成五个放大的输出图像，聚焦在结节上，同时突出显示矩形，标明肺窗形式的结节位置，长径测量，纵隔窗和两个方向透视。五个输出图像放置在第一行，然后是30个纵隔窗口图像，其余的为肺窗口。具体而言，第一部分五个网格是单个结节的自动排版，具有最高的恶性概率风险，这可由AI预测。五张图片也可以由放射科医师验证和覆盖。自适应排版工具的输出包括两个电子排片和一个由四组图像组成的结构化报告。

与传统报告的比较，IILS提供了以下信息：i）基本信息显示：患者信息，检查信息，放射科医师信息等。ii）结果（来自AI预测和放射科医师的双重确认）：标准化描述肺结节图像，包括结节位置，形态和密度，图像信息的层数，结节长径，体积，平均CT值，以及结节的恶性概率。此外，我们为放射科医师预留了足够的空间，可以为其他病变编写定期报告。 iii）诊断感想：由放射科医师撰写的诊断建议。肺部全部范围的适应性是主要关注点，其意味着五个图像是否附在第一组，即一组显示结节的五种形式图像具有最高的AI预测得分为恶性，符合我们的预设的将受到高度重视。验证后，可以将排片导出为可打印格式，以便为放射科医师和患者提供可视化信息，同时自动生成结构报告。

我们还推断一个好的排版系统主要包括以下三个主要内容：1）任何可靠，客观的测量数据的所有关键图像; 2）显示肿瘤特征的一系列图像，包括形状，数量，密度，大小，增强，多角度观察和后续比较; 3）胸部纵隔窗和肺窗图像连续显示（图5a-b）。此外，我们手工显示当前排版形式的图片，这在日常工作中作为比较非常普遍（图5c）。

2.7 结构化报告

结构化报告生成程序旨在完成常见CT扫描场景中的完整工作流程（补充图S2）。与传统报告的比较，我们计划为放射科医师和患者提供图像和结果的可视化。该计划主要通过以下三个步骤进行：1，收集资源；2，渲染图像；3，输出。我们现在将详细描述每个步骤。为了收集资源，我们需要在我们的程序中加载多个资源，包括DICOM图像集、AI预测结节、患者/医院信息，以及捕获放射科医师的结果和诊断感想。收集必要的资源后，我们继续进行渲染部分。该程序将首先根据其重要性对结节进行排序（由AI定义，但可以由操作员覆盖），然后在相应的图像上使用矩形框渲染每个结节。该程序还放大了图像并设置其中心，重点放在结节本身。渲染和转换后，将触发特殊事件侦听器以通知程序捕获渲染数据。最后，程序生成预定义的可打印输出。

2.8 定量和统计分析

ROC曲线绘制了真阳性率（TPR，灵敏度）与假阳性率（1- 特异度）的关系曲线。通过将正确标记的恶性结节的总数和正确标记的良性结节的总数分别除以测试图像的结节总数来确定灵敏度和特异度。连续变量被描述为平均值±标准误差（SEM），并且分类变量被表示为诸如良性/恶性（B / M）的特征。将传统图像排版组与智能系统组和正常对照组之间的临床特征通过Mann-Whitney U检验，卡方检验或Fisher精确检验进行比较。使用双样本Mann-Whitney U检验比较传统排版组与智能布局组和正常对照组之间的差异。Kappa统计用于衡量两个评估者之间的一致性程度，即AI和人类专家。kappa值至少为0.75表示良好的一致性。然而，我们认为较大的kappa值，例如0.90，是优选的。双尾P值＜0.05被认为具有统计学意义。

3、结果

3.1患者和图像特征

具有四种不同结节大小的病例及其特征和演变表明随访的重要性（图6a）。表1总结了用于训练、验证和独立测试数据集的患者和结节的特征。根据文献，结节类型分为实性结节、钙化结节和磨砂玻璃结节。工作流程图的总体实验设计如图6b所示。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图6：应用人工智能技术对不同大小肺结节的检测过程进行了演示，并给出了整个实验设计的流程图。

3.2 模型设计和性能评估

IILS系统的核心设计是深度学习模型,该模型分为两个部分，Faster RCNN和ResNet。Faster RCNN主要负责肺结节的检测和定位。Faster RCNN 还有助于将肺结节分为以下几类：0-3 mm、3-6mm、6-0mm、10-30mm肺结节，实性结节、钙化结节和磨砂玻璃结节（GGNs）。第二部分是ResNet,主要负责肺结节良恶性的分类。在第一部分中，关于特征提取，我们使用了ResNet-50 中的层conv4_x作为输出。在我们的尝试中，ResNet-50中的层conv4_x在检测中表现出最佳性能。在区域建议网络（RPN）中，采用二元交叉熵作为分类损失函数，选取smooth L1损失函数作为回归损失函数。模型的训练过程完善,曲线均达到收敛。该模型的训练过程是完美的，所有曲线均达到收敛。RPN的训练过程如图7a-b所示，所有曲线收敛为零。这也表明我们的模型能够很好地区分前景和背景，并提供了一个精确的前景边界框。图7c曲线也收敛到零，该曲线的收敛性表明，该模型能够很好地区分7类肺结节。第二部分，我们用ResNet对结节良恶性进行了分类。为了获得更准确的模型并避免梯度分散等问题，我们选择了ResNet。在IILS系统中，ResNet显现出了优异的分类性能。曲线的收敛代表了我们分类工作的成功；在模型精度方面，训练和验证曲线均接近100%（训练过程为100%，验证过程为97%）。在损失函数部分，曲线也显示该模型在良恶性结节的分类上表现良好。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图7：检测结节的训练过程的性能。

3.3 IILS与人类专家对结节诊断效率的比较

我们评估了我们的模型检测和分类最常见的肺结节。该模型检测并分类具有不同等级良性和恶性肿瘤结节的图像作为“原发性结节”。这些情况需要相对紧急的转诊到相关的呼吸内科医生或胸外科医生那里进行最终治疗。该系统将具有良性肺或假阳性结节的图像分类，其具有成为恶性肿瘤的可能性低，“仅在可视化结构化报告中显示”。在临床工作中非常常见的微观结节不适用于恶性肿瘤;因此，转诊给相关专家进行治疗的紧迫性较小。

在这里，我们试图解释人工智能与人类专家相比在检测肺结节方面的优势。在本研究中，我们采用了一种简单直观的方法，即对检测到的结节与金标准筛选到的结节的一致性程度进行评估。以病理金标准为参照，分别采用Kappa一致性系数和Mann-Whitney U检验进行一致性分析。引人注目的是，除了AI之外，在所有成对比较中存在差异（AI为p=0.138，其他比较为p<0.001）。与人类专家相比，AI也可以与金标准检测到的肺结节显著一致，AI由于其最高的一致性系数而脱颖而出(AI kappa=0.94，其他比较p<0.001）。我们进一步比较了不同尺寸范围内检测到的结节的一致性，并证明无论结核大小范围如何，AI都显示出超出人类专家的金标准更有利的一致性。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图10：应用于五个不同制造商的成像设备时，AI在肺结节诊断一致性方面的表现。

3.4 IILS的交叉-设备适用性

既然AI已被证实在检测结节方面优于人类专家，无论大小如何，有必要从另一个角度来判断AI的适用性。基本上，AI的诊断取决于现有制造商生产的图像；因此，评估不同制造商的图像输出对AI检测到的结节的影响是合理的。为了在参考黄金标准的条件下探索AI对不同成像制造商的适应性，通过Mann-Whitney U检验和kappa一致性分析，进一步评价AI与金标准诊断不同厂家不同大小结节的一致性。总体而言，AI在五家制造商上配置良好，与黄金标准相比没有差异（通用为p=0.576，飞利浦为p=0.472，西门子为p=0.988，东芝为p=0.376，联影（UI）为p=0.343）。此外，实现了高一致性，kappa系数为0.87到0.99之间（图10）。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图11 评估AI在识别良性或恶性病变中的表现

3.5 通过独立数据验证IILS在诊断方面优于人类专家的表现

使用284例病理结果患者的独立数据进行比较，使用相同的数据集比较恶性肺结节和良性结节,以确定模型性能的准确性。我们推断，我们最初的预测模型完全适用于临床，因为其ROC下面积对于恶性肺结节相对于良性肺结节高达90.6%（图11a）。在0.5的评分截断下，124例预测为真阳性，1479例为真阴性。约有38例被标记为假阳性，181例为假阴性。敏感性76.5%，特异性89.1%（图11b）。在另一组284例病理金标准患者中，模型和人类专家的预测性能在曲线上进行了比较，得出结论：人工智能在敏感性和特异性方面优于其他6名专家。此外，与人类专家相比，人工智能显示出最高的准确性;正确预测248例（87.3%，预测为真阳性或真阴性的人数除以284），错误预测最少，36例（12.7%）。

3.6 自动自适应布局工具的设计与评估

根据2018年NCCN指南的要求，我们与六位专家（三位放射科医生和三位临床医生）进行了讨论后，就良好的图像布局形式达成了最终共识。为了模拟医学成像部门胸部CT扫描后的日常工作结果，我们设计了一种自动自适应布局工具，可以生成“自动胶片布局和肺结节结构报告”，以连接到CNN网络的输出。自动自适应布局工具可以导出关键肺结节图像（具有增加的恶性风险的结节）的胶片布局并生成结构化报告。两种胶片布局都以固定格式使用（一部胶片上有5×8网格）。将180名患者的胸部CT图像混合并连续输入到IILS，以模拟来自不同制造商的图像在日常工作中进入工作站的情况。评估了自适应布局工具的特性以及是否可以成功布局。这180名患者的图像总数为60660，包括纵隔12240例窗口图像和48420张肺窗图像。使用5点量表方法来最终判断电子胶片的布局。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

表2：用于评估布局一致性和准确性的五点量表。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

图12 五家制造商的IILS部署量化。

3.7 五点量表评估高质量的IILS

我们利用五点量表（表2）来评估IILS的质量。在所有类型的制造商中，只有少数几个分数无法达到第四等级（图12a）。正常布局情况下没有发现遗漏，然而，与正常对照组相比（p=0.04）（图12b），患者在第四区的几个病例中出现了漏诊。我们还比较了从每个量表得分中得出的总分，总的来说，西门子在使用IILS时效果最好。总分显示，与结节患者相比，IILS更适合无结节者（p=0.04）（图12d）。

3.8 IILS与传统工作站相比的优点：更少的时间，没有无效的图像和零遗漏

考虑到需要点击时间，五个主要厂商设备布局的平均点击次数为14.45±0.34次。其中GE平均点击量为14.37±0.89次，飞利浦为14.70±0.86次，西门子为14.57±0.87次，东芝为15.77±0.95次，UI为13.67±0.79次，IILS为2次（p<0.04）（图13a）。在使用传统工作站时，无论是患者还是无结节正常人，都需要比IILS更多的点击量。IILS和传统制造商在患者和正常人的图像布局没有显著差异。通过不同厂家工作站的250例患者(每个厂家50例)的布局图像，每个厂家50例患者所需时间分别为8分钟(GE)、7.42分钟(飞利浦)、8.87分钟(西门子)、8.17分钟(东芝)和8.63分钟(UI)。传统CT工作站的平均布局时间为16.87秒/患者。相比之下，IILS需要大约6.92秒/患者。与使用其他制造商工作站的患者和无结节相比，使用IILS的时间显着减少。正如我们所料，IILS在患者和正常病例中比传统工作站更有效。有趣的是，IILS在无结节病例上花费的时间更少，而传统工作站需要更长的时间。

另外，对于两种布局，我们比较了来自两个不同布局系统的无效图像。我们随机收集了来自三个制造商工作站的50个布局结果，总共150个结果。在传统的人工布局下，GE、Philips、UI患者的无效图像分别为8.10±0·42、6.92±0·39、6.15±0·41，IILS患者为0。我们评估了胶片每个网格中的肺区域是否适合每个尺寸。所有的专家都主观地认为存在着显著的差异。我们进一步研究两种布置方法和工作流程是否会导致肺结节检测的遗漏。两名放射科医生被要求指出两个胸部CT片和不同平台上报告的结节的位置。根据报告的描述，我们共发现318个不匹配的结节，46.8%的患者未发现结节，约为0.97/例。此外，327例患者中63例漏诊为GGN。

3.9 IILS完全可重现，防止人类测量的不稳定性

我们从几个方面比较了如何正确显示结节的结果。由于金标准的缺乏，我们评估了哪种标准更稳定或重现性更好。在这方面，总共选择了8个肺结节，即4个不同尺寸的2个结节（尺寸<3mm，3-6mm，6-10mm，10-3cm）。随后，两名放射学家被要求通过工作站，在不同时期10次反复测量这8个结节的大小和密度；IILS 的测量结果是100%可重复的，在多次测量中表现出完全的一致性，而由专家评估的测量则显示出不同程度的波动。

3.10 人机耦合操作需要适应过程

我们模拟了放射科医师的正常工作场景，其中要求两名放射科医师在两小时内对284名患者中的尽可能多的患者做出判断，使用传统诊断或基于AI判断的重新诊断，间隔时间为一个月。在使用AI判断作为先验信息后，在消耗时间、效率和绝对不匹配的结节方面有了显著的改善（p<0.05）。具体来说，基于人工智能已有的判断，两位专家不仅减少了同一幅图像的诊断时间，而且提高了单位时间内的诊断效率。检测误差也明显减小。使用AI后，两位专家的检测灵敏度都得到了提高，但专家2的特异性从99.2%下降到60%。

思路清奇！南京鼓楼医院医疗AI成果登柳叶刀子刊：AI将影像排版时间缩短至100秒，准确率近于100%

表3：用于评定不同类型图像布局组合的五点标度。

3.11 专家和患者的满意度都显示出IILS的友好性

六位对原先结果不知情的专家评估了传统系统和IILS的结果。我们建立了一个5点评分机制，用于评估由两种不同布局系统生成的布局电子胶片和报告（表3）。专家对IILS进行了明显更好的评价，所有5点中的3到4点高于传统方法（p=7.674e-23）。相比之下，患者评分更加极端，表明报告的友好性非常重要（p=8.164e-25）。

3.12 IILS在LUNA16和LIDC/IDRI基准上的性能评价

IILS的性能在两个基准数据库上进行了评估，即LUNA16和LIDC/IDRI。Luna16（https://luna16.grand-challenge.org/）共888次CT扫描，最终得分为0.696（排名18）。我们在LIDC / IDRI 数据库上进一步测试了我们的IILS （ https://wiki.CurraseIfgIsActuv.NET/DISPLAY/PARIS/LIDC-IDRI ）有1018次CT 扫描，其包含更多的切片厚度类型并且更类似于真实的临床环境。对于大于3mm的结节，模型的召回率为88.75％，每例扫描的假阳性率为5.22。

4、讨论

在本研究中，通过创建和部署深度神经网络算法，在有限的人类干涉下，我们的IILS模型展示了胸部CT图像分析的竞争性性能。此外，机器学习技术用于图像分析的功效可能超出了胸部CT图像的范围—原则上，通过AI和布局学习的技术可能潜在地用于多个学科的各种医学图像。

IILS的一个主要特点是几乎实时地检测肺部结节。这种实时性能是由于系统中的Faster RCNN模型。IILS的性能在很大程度上取决于通过训练模型检测和分类结节的准确性。虽然与金标准达成了很高的一致性，将AI应用于UI在检测小结节方面仍存在显著差异，这可能是由于参加模型训练的样本量小（结节数量，n=1119）造成的。

经证实，在检出结节数量和判断良恶性方面，IILS优于6名专家。根据目前构建的模型，获得的ROC曲线下面积达90.6%，具有一定的临床应用价值。经过严格的统计检验，在结节检出量和良恶性判断方面，IILS优于6名人类专家。补充表S6显示了一些相关工作和比较结果。相比之下，实验数据和CNN结构的结果都取得了一定的进展，使我们对IILS的模型性能稳定、可靠和高效充满了希望。

IILS旨在用于日常实际工作中准确检测和分类结节，并标准化胸部CT图像和报告。这种布局的优点是简化了医生仔细翻看图像，找到有关键图像的肺结节的过程。为优化IILS，我们评估了其在布局部件中的性能。凭借AI接近100％的成功率，整个多平面重建程序设计可以自动完成。多平面重建对临床医生从多个角度观察肺结节，做出最终诊断，评估和跟踪肺结节至关重要。

IILS与传统布局系统之间存在十四个差异。其中，内容分为三个部分。第一部分侧重于使运营商受益。IILS可能有机会降低成本，包括提高CT利用效率，替代低成本资源甚至取代某些业务。第二部分包括第四至第十一点的内容，这些差异主要集中在最终产出的差异，两种电子胶片加上两种不同系统产生的一种相应的报告。尽管IILS制作的电子胶片布局是从传统方式的两个部分演变为三个部分，其中前五个小网格仅用于显示在不同呈现形式下具有最高恶性风险的一个结节，这将有助于IILS比传统方法更经常地获得有效图像，从而提高了效率。

此外，还出现了一个有趣的现象。验证在我们的自适应工具的表现中，我们从临床医学报告的结果中随机选择了来自对照组的327例病例，这些病例报道没有肺结节。然而，在重新测试的过程中，我们发现在153例（46.8％）中实际错过了318个结节。错过的结节主要集中在3-6毫米而不是<3毫米的，主要类型的缺失结节是钙化结节而不是磨砂玻璃结节。这个问题的可能原因是，在传统的母语中，钙化结节可能被“旧病变”所取代，而“磨玻璃结节”则没有同义词。

第六点为多维结节；根据基线和随访CT的结节直径和时间间隔的差异可以观察和估计结节的大小在这两种扫描之间，肿瘤呈均匀的三维生长。然而，由于繁重的体力劳动，无法对关键的肺结节进行三维重建。因此，我们增加了一种自动多维观察方法，以最大限度地减少误诊率。

第三部分包括第十二至第十四点的内容，比较了IILS和传统工作站对所有医生和病人的影响。我们的研究结果表明，所有医生和患者对IILS的输出感到满意。然而，在以经验为导向的阅读习惯方面，人工智能在人类专家中的有效性仍然存在差异。在我们的研究中，一名资深放射科医生(专家1)似乎对人工智能预测肺结节的信心较低，即使IILS做出了判断，也会仔细遵循阅读习惯浏览图像。应用人工智能前后，在效率、消耗时间、结节绝对不匹配等方面均有显著差异。有趣的是，在敏感性和特异性方面没有发现明显的改善。相比之下，初级放射科医生(专家2)似乎在很大程度上信任人工智能。我们推测，人机耦合操作可能仍然需要一个适应过程。

虽然结果很有希望，但我们的研究有一些局限性。在这项试验研究中，脊柱侧凸患者、原发性或继发性胸部畸形患者和接受胸外科手术的患者的图像不包括在训练和测试集中。因此，需要进一步的临床收集和测试来评估各种形式的胸腔的临床准确性。由于胸廓畸形的发生率相对较低，这种影响不会影响我们的总体结论。临床试验研究在两年内进行，IILS正常运作六个月。但是，需要对新系统进行进一步评估，以评估长期准确性和稳定性。

此外，IILS仅限于解决成人肺结节的CT图像问题，而不是婴儿，由于婴儿很少出现肺结节。在各种环境条件下还需要进行更多测试，例如，在极冷、炎热、干燥和潮湿的环境中进行测试。还需要测试具有一些噪声的图像以评估系统的稳健性。事实上，图像不完整的患者被纳入系统，最终导致异常。因此，在处理特殊图像，例如不完整图像，空白图像或不正确图像时，当前系统仍有改进的空间，可以引入诸如完整性扫描和灰度确认之类的算法。另外，目前，IILS只能在胸部进行。未来的工作可能包括将设备应用于身体其他部位的图像。

总之，IILS的性能优于传统系统，并提供了一种比现有技术更经济、设计更合适的替代方法，以优化肺部结节的CT布局，节省费用和提高效率。由于基于自动AI的标准化电子胶片和可视化结构化报告生成，可能会在日常工作流程中建立一个新的标准和一个新的放射学工作流程，并且不需要一些相关的操作员。

为了提供一个可以引用的基准，我们在两个基准数据库上评估了我们的IILS的性能。正如预期的那样，我们得到了相对较高水平的假阳性，特别是LUNA16，因为在预测中，小尺寸的结节被视为假阳性。我们认为，设计的最优诊断模型通常是针对特定群体的，因为我们采用的所有训练图像都来自中国，而LUNA16数据库收集的数据集仅从美国中收集，且没有任何<3mm结节的标签。

综合而言，IILS提供了一种简单、准确的方法来检测、分类和布局肺结节的CT图像，以提高对中国人群的诊断。因此，IILS为人工智能的临床应用打开了新的窗口，可能是改善全球医疗质量不平衡的有效途径。