从百度离职后,吴恩达重新回到斯坦福大学继续进行学术研究,医疗是他最为看重的垂直应用方向之一,两年的时间里,吴恩达和团队陆续发表了多项成果:包括用CNN算法识别肺炎、公布最大医学影像数据集 MURA等等。
雷锋网了解到,近日,斯坦福大学官网发布了吴恩达团队的一项最新成果:借助人工智能算法,帮助放射科医师改进脑动脉瘤的诊断。该成果的论文发表在了《JAMA Network Open》。
未破裂动脉瘤的诊断是一项至关重要的临床任务——脑动脉瘤是大脑血管中的隆起物,可能会渗漏或破裂,可能导致中风、脑损伤或死亡。
计算机断层扫描血管造影(CTA)是目前用于颅内动脉瘤的诊断、监测和术前规划的主要的、微创的成像模式。但是,即使是专业的神经放射学家来进行诊断也需要耗费很长的时间。低评分者信度(interrater agreement)对诊断的可靠性也提出了额外的挑战。
在这几年的人工智能浪潮下,卷积神经网络(CNN)已经在一系列视觉任务(包括医学图像分析)上表现出优异的性能。然而,利用深度学习来增强临床医生工作能力的成果并不是很多。
所以,利用AI帮助临床医生可靠地识别CTA中具有临床意义的动脉瘤,将会为放射科医师、神经外科医生和其他临床医生提供一个可用和易用的诊断支持工具。
基于这些考虑,吴恩达团队建立了一种深度学习模型,用于自动检测CTA上的颅内动脉瘤并分割特定区域,以帮助临床医生通过CTA检查以诊断颅内动脉瘤。
以下为论文详细内容,由AI掘金志学术组编译。关注「AI掘金志」公众号,在对话框回复关键词“吴恩达”,即可获取原文PDF。
重要性: 深度学习有可能增强临床医生在医学成像解释中的表现,并通过自动分割缩短诊断时间。迄今为止,很少有研究探讨过这一主题。
目的: 开发和应用神经网络分割模型(HeadXNet模型),该模型能够在头部计算机断层血管造影(CTA)成像中生成颅内动脉瘤的精确体素预测,以增强临床医生的颅内动脉瘤诊断能力。
设计、设置和参与者:在这项诊断研究中,我们开发了一个三维卷积神经网络结构,使用611例头部CTA检查训练集以生成动脉瘤分割。在115个检查的测试集上,该模型的分割结果提交给了临床医生。
在2018年8月13日和2018年10月4日之间,无论是否有模型增强,8名临床医生在使用随机顺序和14天清洗期的交叉设计中诊断出测试集上存在动脉瘤。在2003年1月3日至2017年5月31日期间的头颈部检查,被用于训练、验证和测试模型。有至少1例临床意义重大的动脉瘤,未破裂的颅内动脉瘤检查为阳性。排除了出血、动脉瘤破裂、创伤后或传染性假性动脉瘤、动静脉畸形、手术夹、线圈、导管或其他外科硬件的检查。所有其他CTA检查都被认为是对照组。
结果:该数据包含来自662名独立患者的818项检查,其中328例CTA检查(40.1%)至少包含1例颅内动脉瘤,490例检查(59.9%)无颅内动脉瘤。阅读测试集的8位临床医生的经验为2至12年。通过人工智能产生的分割预测来增强临床医生的能力,与没有增强相比,临床医生在灵敏度、准确性和评分者信度方面取得了统计学上的显著改善:
临床医生的平均敏感度增加0.059(95%CI,0.028-0.091;adjusted P = .01),平均准确度增加0.038(95%CI,0.014-0.062;adjusted P = .02),平均评估者间差异( Fleiss κ)增加0.060,从0.799增加到0.859(adjusted P = .05)。
特异性(0.016; 95%CI,-0.010-0.041;adjusted P = .16)和诊断时间(5.71秒;95%CI,7.22-18.63秒;adjusted P = .19)的平均值在统计学上没有显著变化。
结论和意义:我们建立的深度学习模型成功地检测出CTA上临床意义显著的颅内动脉瘤。这表明人工智能辅助诊断模型的集成可以通过可靠和准确的预测来增强临床医生的表现,从而优化患者护理。
方法
数据
我们回顾性研究了2003年1月3日至2017年5月31日在斯坦福大学医学中心进行的头部或头颈部共9455例连续CTA检查报告。检查包括实质性出血、蛛网膜下腔出血、创伤后或传染性假性动脉瘤、动静脉畸形、缺血性中风、非特异性或慢性血管发现,如颅内动脉粥样硬化或其他血管病变,以及手术夹、线圈、导管或其他外科硬件。由具有12年经验的神经放射学家排除了因创伤或运动退化导致的损伤的例子。检查报告还包括非破裂性重要动脉瘤(> 3 mm)。
放射科医生标注
测试集中所有检查的参考标准由一位经过认证的具有12年经验的神经放射学家确定。通过审查原始放射学报告确定动脉瘤的存在,对CTA检查进行双重审查。另外,如果可行,通过诊断性脑血管造影进一步确认动脉瘤。神经放射学家可以访问所有的医学数字成像和DICOM系列,原始报告和临床病史,以及注释过程中的前期和后续检查,以确定标签的最佳参考标准。
在每个动脉瘤检查中,放射科医师还确定了每个动脉瘤的位置。使用开源注释软件ITK-SNAP,在每个切片上手动分割所识别的动脉瘤。
模型建立
在这项研究中,我们开发了一种名为HeadXNet的三维CNN,用于从CT扫描中分割颅内动脉瘤。CNN是一种用于处理图像数据的神经网络,而三维CNN特别适合处理图像序列或体积。
HeadXNet是具有编码器 - 解码器结构的CNN(补充中的e图1),其中编码器将卷映射到抽象的低分辨率编码,然后解码器将该编码扩展为全分辨率分割体积。分割结果为每个体素动脉瘤的概率值,其尺寸与原图像相同。编码器改编自50层SE-ResNeXt网络,解码器是一系列3×3转置卷积。
与UNet类似,跳过连接在3层编码器中使用,以将编码过程中的输出直接传输到解码器中。编码器是在Kinetics-600数据集上预先训练的,这是一系列标有人类行为的YouTube视频;在预训练编码器之后,最后3个卷积块和600-way softmax 输出层被移除,相应位置添加了一个巨大的空间金字塔池化层和解码器。
训练过程
在训练期间,我们从体积中随机取样16个样本的子体积。对数据集进行预处理以找到颅骨的轮廓,并且将每个样本重采样到208×208像素之前,每个样本在横断面中围绕颅骨进行裁剪。然后将切片裁剪成192×192像素(在训练期间使用随机裁剪,在测试期间使用中心裁剪),最终输入的尺寸大小为16×192×192;将相同的变换应用于分割标签。训练过程使用基于体素的二元交叉熵和Dice损失的加权组合。
在进入模型训练之前,输入图像被截取为[-300,700] Hounsfield单位,数据归一化为[-1,1]和零中心。 训练使用3个TitanXp GPU(NVIDIA),每个GPU 上的minibatch为2。 使用随机梯度下降优化器优化模型的参数,动量为0.9,随机初始化权重的peak learning rate为0.1,预训练权重为0.01。学习率通过linear warm-up从0到10000次迭代的peak learning rate进行调整,然后进行超过30万次的余弦退火迭代。
另外,对于预训练编码器的前10000次迭代,学习速率固定为0。关于正则化,对于所有可训练参数的loss加上0.001的L2权重衰减,并且在编码器块中使用随机 depth dropout。没有使用标准dropout。
为了控制类不平衡,我们使用了3种方法。
首先,错误分类的正例通过编码器和focal loss鼓励更大的参数更新,在这之后添加辅助loss。
其次,异常训练样本的采样频率高于正常样本,因此异常样本占训练迭代的30%。
最后,在训练迭代中,当分割标签完全由背景(正常)体素组成时,解码器的参数不更新。
为了产生整个体积的分割预测,连续16张切片的子体积的分割输出被简单地连接起来。如果切片的数量不能被16整除,则最后一个输入体积用0填充,相应的输出体积被截断回原始大小。
研究设计
我们进行了一项诊断准确性研究,比较了有和没有模型增强的临床医生的表现指标。参与该研究的8名临床医生,每一名诊断测试集中的115例,一半有该模型的帮助,另一半没有。临床医生对原始报告、临床病史和随访成像检查不知情。
使用交叉设计,临床医生随机分为两组。在每组中,检查按固定随机顺序对组的一半进行排序,另一半则为相反顺序排序。第1组首先阅读没有模型增强的检查,第2组首先阅读模型增强的检查。在14天的清洗期后,增强设置进行颠倒,使得组1阅读具有模型增强的检查,组2阅读没有模型增强的检查(图1A)。
临床医生标记是否存在至少1个临床重要的动脉瘤(直径大于3mm)。临床医生在诊断阅览室单独阅读,全部使用相同的高清监视器(3840×2160像素),在标准的开源DICOM查看器(Horos)上显示CTA检查。临床医生将他们的标签输入数据输入软件应用程序,该应用程序自动记录标记先前检查与当前检查之间的时间差。
当使用模型增强进行阅读时,临床医生以直接覆盖在CTA检查之上的感兴趣区域(ROI)分割的形式提供模型的预测。为了确保所有临床医生都使用熟悉的图像显示界面,模型预测的ROI在标准DICOM查看软件中显示。
在模型预测概率大于0.5的每个体素中,医生在轴向、矢状和冠状系列切片上可以看到一个半透明的红色覆盖层(图1C)。在加载检查时,医生可以立即访问ROI,并且可以切换ROI以显示未改变的CTA图像(图1B)。
红色覆盖是唯一的提示,即模型是否预测到特定CTA检查包含动脉瘤。鉴于这些模型结果,医生可以选择根据临床判断考虑或忽视。
当医生在没有模型增强的情况下进行诊断时,任何检查显示都没有ROI。否则诊断工具对于增强和非增强读取是相同的。
A,交叉研究设计。 临床医生被分成2组,以随机顺序进行有和没有模型增强的读片,其间有2周的清洗期。
B,无模型增强的读片,在轴向,冠状和矢状视图中使用原始CTA扫描。
C,模型增强读片,在CTA轴向,冠状和矢状视图上覆盖模型分割结果。医生可以选择关闭覆盖并查看扫描,如图B所示。AI表示人工智能;CTA,计算机断层扫描血管造影。
统计分析
在确定检查是否包含动脉瘤的二元任务中,使用敏感性、特异性和准确性来评估具有和不具有模型增强的临床医生的表现。灵敏度表示真阳性结果的数量除以动脉瘤阳性总数,特异性表示真阴性结果的数量除以总动脉瘤阴性病例,准确度表示所有测试病例的真阳性除以真阳性结果的数量。
所有临床医生的这些统计数据的微观平均值也通过与真阳性、假阴性和假阳性结果总数相关的每个统计数据来计算。此外,为了将模型的分割输出转换为二元预测,如果模型预测至少1个体素属于动脉瘤而其他为阴性,则预测认为是阳性的。使用95%Wilson评分置信区间来评估敏感性、特异性和准确性的估计值的变化。
为了评估临床医生是否通过模型增强实现了显着的性能提升,我们对所有8位临床医生的敏感性、特异性和准确性的差异进行了单尾t检验。为了确定研究结果的鲁棒性以及结果是否包括实习放射科医生和神经外科医生,我们进行了敏感性分析:我们仅计算了对经过认证的放射科医师的敏感性、特异性和准确性差异的t检验。
对有或无模型增强的临床医生进行诊断的平均时间计算为连续诊断的电子表格中的平均进入时间之间的差异; 使用95% t值置信区间来评估估计值的可变性。考虑临床读片中断或时间记录错误,排除每个读片中每个临床医生诊断的5个最长和5个最短时间。为了评估模型增加是否显着缩短诊断时间,对所有8名临床医生进行和不进行模型增强的平均时间差异进行单尾t检验。
临床医生和放射科医师子集的评估信度使用精确的Fleiss κ计算。为了评估模型增强是否增加了评估信度,对临床医生在测试集上的评估信度进行了单尾置换检验。置换过程包括随机交换有或没有模型增强的临床医生标注,以便先前已经标记为具有增强地读取的测试集的随机子集现在被标记为在没有增强的情况下被读取,反之亦然;在具有置换标签的测试集中计算精确的Fleissκ值(和差值)。
这种置换过程重复10000次,以产生Fleissκ差异的零分布(具有增强的临床医师标注的评估信度没有高于无模型增强的情况),未经调整的P值计算的Fleiss κ差异的比例比观察到的Fleiss k差异更大。
为了控制familywise错误率,应用Benjamini-Hochberg校正来考虑多个假设检验;Benjamini-Hochberg-adjusted P ≤ .05表示统计显着性。所有测试都是单尾的。
该数据包含来自662名独立患者的818项检查,其中328例CTA检查(40.1%)至少包含1例颅内动脉瘤,490例检查(59.9%)无颅内动脉瘤(图2)。在328例动脉瘤病例中,15位特殊患者的20例包含2个或更多动脉瘤。148例动脉瘤的动脉瘤大小在3m-7mm之间,108例动脉瘤在7毫米至12毫米之间,61例动脉瘤在12毫米至24毫米之间,还有11例动脉瘤大于24mm。
动脉瘤的位置分布如下:99例位于颈内动脉,78例位于大脑中动脉,50例为海绵状颈内动脉瘤,44例为基底动脉瘤,41例位于前交通动脉,18例位于后交通动脉,16例位于椎基底动脉系统,还有12例位于大脑前动脉。
所有检查均在GE Discovery、GE LightSpeed、GE Revolution、Siemens Definition、Siemens Sensation或者Siemens Force扫描仪上进行,切片厚度为1.0 mm或1.25 mm,使用头部血管造影或头颈血管造影的标准临床方案。动脉瘤和非动脉瘤检查之间的方案和切片厚度没有差异。在该研究中,从检查中提取轴向序列,并在每个包含动脉瘤的轴向切片上打上分割标签。每次检查的图像数量在113到802之间(均值[方差],373 [157])。
将检查分为611例检查训练集(494名患者;均值[方差]年龄,55.8[18.1]岁;372[60.9%]女性)用于训练模型,92例检查的验证组(86名患者;均值[方差]年龄,61.6 [16.7]岁;59[64.1%]女性)用于模型选择,115例检查的测试集(82名患者;均值[方差]年龄,57.8 [18.3]年;74 [64.4%]女性)用于评估临床医生以及模型的表现(如图2)。
我们采用分层随机抽样的方法,形成的验证和测试集各包括50%动脉瘤病例和50%正常病例;剩下的检查为训练集,其中36.5%为动脉瘤检查。43例患者因动脉瘤随访检查而在数据集中出现多例检查。考虑到这些重复的病人,检查的分组使得不同的组之间没有病人重叠。图2包含每组的病理学和患者人口统计学特征。
从在2003年至2017年期间在斯坦福大学医学中心进行的9455次计算机断层扫描血管造影(CTA)检查中挑选了818例经过专业的放射学家验证的病例。这些测试被分为训练集、开发集和测试集,分别用于训练模型、选择最佳模型和评估所选择的模型。
共有8名临床医生参加了研究,其中包括6名注册执业的放射科医生、1名执业神经外科医生和1名放射科实习医师。放射科医生的经验从3年到12年不等,神经外科医生有2年的主治经验,实习医师正在斯坦福大学医学中心接受第二年的培训。第1组和第2组各由3名放射科医师组成;实习医师和神经外科医生都在第1组。没有临床医生参与建立检查的参考标准。
在没有增强的情况下,临床医生取得的微平均灵敏度为0.831(95%CI,0.794-0.862),特异性为0.960(95%CI,0.937-0.974),准确度为0.893(95%CI,0.872-0.912)。在有增强的情况下,临床医生的微平均灵敏度达到0.890(95%CI,0.858-0.915),特异性为0.975(95%CI,0.957-0.986),准确度为0.932(95%CI,0.913-0.946)。基础模型的灵敏度为0.949(95%CI,0.861-0.983),特异性为0.661(95%CI,0.530-0.771),准确度为0.809(95%CI,0.727-0.870)。模型的性能、每个临床医生以及他们的微平均性能在eTable 1中给出。
有增强的情况下,临床医生整体在平均敏感度和平均准确度有统计学上显著的增加,分别为(0.059;95%C,0.028-0.091;adjusted P = .01)和(0.038; 95%CI,0.014-0.062;adjusted P = .02)。平均特异性在统计学上没有显著变化(0.016;95%CI,-0.010-0.041;adjusted P = .16)。
表中详细列出了临床医生整体的性能改进,图3中列举了每个临床医生的改进。在附录eTable 1中显示了加和不加模型增强的个体性能。敏感性分析证实,即使注册执业的放射科医生,也有在统计学上有显著的平均灵敏度(0.059; 95%CI,0.013-0.105;调整后P = .04)和准确度(0.036; 95%CI,0.001-0.072;调整后P = .05)增长。作为一个整体,注册执业的放射科医生的性能改进在补充资料的eTable 2中给出。
临床医生没有增强的每次检查的微平均诊断时间是57.04秒(95%CI,54.58-59.50秒)。每个临床医生的时间详见附录eTable 3,每人的诊断时间变化显示在eFigure 2中给出。随着增强,平均诊断时间在统计学上没有显著的下降(5.71秒;95%CI,-7.22-18.63秒;adjusted P = .19)。模型平均需要7.58秒(95%CI,6.92-8.25秒)来处理检查并输出其分割图。
混淆矩阵,即报告了每个临床医生的真阳性和假阳性结果以及真阴性和假阴性结果(有或没有模型增强)的表格,在附录eTable 4中给出。
在临床医生的评判一致性上,在统计学上显著增加了0.060(adjusted P = .05),没有增强的精确Fleiss κ为0.799,增强的为.859。对于注册执业的放射科医师,他们的评分员信度增加了0.063,没有增强的精确Fleiss κ为0.783,增强了的为0.847。
讨论
在本研究中,我们采用交叉研究设计,研究了深度学习模型增强临床医生使用CTA检测脑动脉瘤的能力。随着模型的增强,临床医生的敏感性、准确性和评分员信度显著提高。特异性和诊断时间无统计学差异。
鉴于错过动脉瘤破裂风险的潜在灾难性后果,医生非常需要一种能够可靠地检测和增强临床医生表现的自动检测工具。动脉瘤破裂在40%的患者中是致命的,在存活下来的患者中,有三分之二的人会导致不可逆的神经功能障碍;因此,准确及时的检测至关重要。
除了在诊断CTA检查时显着提高临床医生的准确性之外,还可以使用自动化动脉瘤检测工具(例如本研究中提供的检测工具)来确定工作流程的优先级,以便那些更有可能是阳性的检查能够得到及时的专家诊断,从而可能缩短治疗时间并获得更有利的结果。
临床医生在动脉瘤诊断中的显著差异已被充分记录,并通常归因于缺乏经验或亚专科神经放射学训练,复杂的神经血管解剖学或识别动脉瘤的劳动密集型性质。研究表明,基于CTA的动脉瘤检测的评分员信度的差异很大,其中评估间可靠度指标范围为0.37至0.856,评估水平因动脉瘤大小和个体放射科医师经验而异。
除了显著提高敏感性和准确性外,使用该模型增强临床医生还显著提高了评分员信度,从0.799提高到0.859。这意味着通过模型增强,具有不同经验和专业水平的临床医生可以产生更准确和更一致的放射学解释。
目前,用于改善CTA临床医生动脉瘤检测的工具包括骨减法,以及颅内脉管系统的三维渲染,其依赖于应用对比度阈值设置以更好地描绘脑血管系统并产生3D渲染的重建以帮助动脉瘤检测。但是,使用这些工具对临床医生来说是劳动和时间密集的;在某些机构中,此流程被外包给3D实验室,需要额外费用。
本研究中开发的工具直接集成在标准DICOM查看器中,只需几秒钟即可在新检查中生成分割图。如果集成到标准工作流程中,可以大大降低诊断的成本和时间,可能导致更有效的治疗和更有利的患者结果。
深度学习最近在各种基于临床图像的识别任务中取得了成功。研究表明,二维神经网络在CT头颅检查中检测颅内出血和其他急性脑部表现,如肿块效应或颅骨骨折方面具有很强的性能。
最近,一项研究检查了深度学习在诊断基于磁共振血管造影检查脑动脉瘤的潜在作用。
另一项研究表明,在解释膝关节磁共振研究时,为临床医生提供深度学习模型预测,增加了检测前交叉韧带撕裂的特异性。
据我们所知,在本研究之前,深度学习尚未应用于CTA,这种检测脑动脉瘤的一线成像模式。我们的研究结果表明,深度学习分割模型可以产生可靠和可解释的预测,增强临床医生并提高他们的诊断性能。在本研究中实施和测试的模型显着提高了临床医生的敏感性、准确性和使用CTA检测脑动脉瘤方面具有不同的经验和专业的医师检查的可靠性。
当然,这项研究有局限性。首先,因为该研究仅关注非破裂动脉瘤,模型在动脉瘤破裂后动脉瘤检测、线圈或手术夹闭后病灶复发或与动静脉畸形相关的动脉瘤方面的表现尚未进行研究。
其次,由于排除了包含手术硬件或设备的影响,因此模型性能在受到这些影响时是未知的。在临床环境中,CTA通常用于评估多种类型的血管疾病,而不仅仅用于动脉瘤检测。因此,测试集中动脉瘤的高患病率和临床医生的二元任务可能会在测试中引入偏差。
此外,这项研究是针对单一的三级护理学术机构的数据进行的,当应用于其他具有不同扫描仪和成像协议(如不同的切片厚度)的机构的数据时,可能不能表现出很好的性能。
结论
本项研究建立了一种基于CTA的颅内动脉瘤自动检测深度学习模型。我们发现,模型显著提高了临床医生的敏感性、准确性和评估者间可靠性。未来的工作将进一步调查这个模型的表现,并应用其他机构和医院的数据。雷锋网雷锋网