吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

MURA 肌肉骨骼 X光片吴恩达

2018/01/24 14:33

雷锋网消息，大量、高质量的数据集推动了深度学习领域的发展。近日，斯坦福吴恩达团队开源了 MURA 数据库，包含 14982 个病例的上肢肌肉骨骼X光片。每个病例包含一个或多个图像，均由放射科医师手动标记。团队表示，为鼓励医学影像诊断模型的进步，MURA 数据库可以免费使用。数据集地址为https://stanfordmlgroup.github. io/projects/mura（数据集要2月才会公布）

吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

异常检测任务，也就是通过组织器官的 X 光片来确定机体的健康状况，对患病情况进行直接诊断。全球超过 17 亿人都有肌肉骨骼性的疾病，这也是导致长期疼痛和残疾最常见的病因。据雷锋网了解，每年有 3000 万左右的急诊病例，这个数字还在不断上涨。

数据采集和训练

MURA 是目前最大的 X 光片数据库之一，包含源自 14982 项病例的 40895 张肌肉骨骼X光片。1万多项病例里有 9067 例正常的上级肌肉骨骼和 5915 例上肢异常肌肉骨骼的 X 光片，部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。

吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

表一：MURA 数据库包含 9067 例正常和 5915 例异常肌肉骨骼影像学研究，包括肩部，肱骨，手肘，前臂，手腕，手掌和手指等上肢。MURA 是最大的公共影像数据集之一。

基于 MURA，我们开发了一个有效的异常检测模型。将一个或多个 X 光片输入该模型来研究上肢部分。通过 169 层的卷积神经网络预测每个 X 光片的异常概率，然后得出同一病例所有 X 光片异常概率的平均值，作为 X 光片的异常概率输出。

吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

图2.该模型输入一个或多个 X 光片，通过 169 层的卷积神经网络预测异常的概率，然后输出异常概率的平均值。

为了有效地评估模型并获得放射科医生对于模型的评价，我们从 209 项持续跟踪的病例中挑选了 6 个病例，收集专业放射科医生给出的诊断结果。将模型和医生给出的诊断结果进行比较，发现模型的诊断能力达到了放射科医生相当的水平。在诊断手指和手腕异常时，模型检测异常的能力强于最好的医生。然而，在诊断膝、前臂、肱骨和肩部异常时，模型的表现不如医生的表现。

机构审查委员会的批准之后，我们通过斯坦福医院的PACS系统收集了被识别的、符合HIPPA的图像。我们收集了来自12251名患者、14982项研究的肌肉骨骼放射学数据集，共有40895个多视图的影像。每一个都属于七个标准的上肢放射学研究类型之一：肘部、手指、前臂、手、肱骨、肩膀和手腕。表1总结了正常和异常研究的分布情况。

预测模型VS放射科医生

斯坦福医院的放射科医生将2001年到2012年的每项研究手工标记为正常或异常。在对DICOM图像进行解释时，对至少300万像素的PACS医用级显示器进行了解释，其中最大亮度为400 cd/m2，最小亮度 1 cd/m2，像素尺寸为0.2，本机分辨率为1500 x 2000像素。临床图像在分辨率和纵横比上有所不同。我们将数据集拆分为训练(11255名患者，13565个研究，37111个图像)、验证(788例，1208项研究，3225张图片)、测试(208个病人，209个研究，559个图像)。数据集在任何一组患者之间没有重叠。

为了评估模型并得到放射科医生的可靠验证，我们从斯坦福大学那里收集了一些额外的标签，这些标签包括209个肌肉骨骼研究。放射科医生在使用PACS系统的临床阅览室环境中，对每项研究进行了回顾和标记，并将其标记为DICOM文件。放射科医生平均有8.83年的经验，从2年到25年不等。放射科医生没有获得任何临床资料。标签被输入到一个标准化的数据录入系统中。

我们评估了放射科医生和模型在测试集上的表现。研究中，我们从6名认证的放射科医生那里收集了额外的正常/异常的标签，选择了其中三位来创建一个金标准，利用其他三位来评估人类在这项任务上的表现。

吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

表二总结了放射科医生和模型在不同研究类型和总体上的表现。放射科医生在腕部研究(医生2)或肱骨研究(医生1和3)上取得了最高的成绩，他们在手指研究上的表现最差。该模型在腕部研究中也达到了最高的表现。在腕部研究中，模型表现与最好的放射科医生表现相当。在所有其他研究类型中，模型的表现明显低于人类的表现。

吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

表二：每个研究类型和总体上突出表现最佳(绿色)和最差(红色)表现

有哪些可用的公开数据集？

大型数据集使得深度学习算法在图像识别、语音识别和问答等任务中实现或接近人类水平的性能。医学方面的数据集也帮助科学家在糖尿病视网膜病变、皮肤癌、心律失常、脑出血、肺炎和髋部骨折方面成为小半个“专家”。

吴恩达团队公布最大医学影像数据集 MURA，基于深度学习检测骨骼疾病

表三：公开可用医学放射影像数据集（第二大的数据集是Pediatric Bone（预测骨龄）；0.E.1是关于膝关节的数据集）

表3提供了公共可用数据集的摘要。之前的数据集比MURA要小，但最近发布的ChestX-ray14除外，它是112120个正面的胸片、包含14个胸科病理标签。然而，标签并不是直接由放射科医生提供的，而是由他们的文本报告自动生成。

很少有公开可用的肌肉骨骼X光数据集。斯坦福大学的医学和成像人工智能项目提供了一个数据集，包含了带有骨骼年龄(AIMI)的儿童手部X光片。据雷锋网了解，数据集是由不同年龄的儿童的左手影像组成，上面标有放射科医生的骨龄读数。骨关节炎方面就得看0. E.1数据集了，其中包含标有K&L等级的骨关节炎(OAI)的膝部放射照片。上述的几个数据集都包含不到15000个图像。

骨骼肌异常检测的意义是什么？

骨骼肌x光片的异常检测具有重要的临床应用价值。首先，将异常检测模型用于工作列表的优先级排序。在这种情况下，检测到的异常可以在图像解释工作流程中前置，让最严重的患者得到更快的诊断和治疗：

正常的检查可以被适当地划分为工作列表的较低优先级；
可以将更快速的结果传达给医患双方，从而优化医疗系统其他领域的配置；
放射学报告模板用于正常研究，可用于检验放射科医生，以便进行更快速的审查和批准。

此外，自动异常定位可以帮助缓解放射科医生的疲劳。医疗资源的分布不均加剧了这个问题，尤其是在医疗资源集中的城市地区。虽然疲劳是所有医护专业人员经常面对的一个问题，但放射科医生非常容易受到影响，进而可能会影响诊断的准确性。有一项研究表明，放射科医生在当天工作结束时，骨折检测的效率与工作开始时相比有显著的下降。

一个可以进行自动异常定位的模型可以突出显示模型中被识别为异常的部分，引起临床医生的注意。如果有效的话，这将有助于更有效地帮助医生进行阅片，减少错误，并帮助提高标准化质量。当然了，该模型还需要更多的研究来进行评估，并且思考如何与其他深度学习模型在临床环境中进行最优化的整合。