北卡罗莱纳大学沈定刚：深度学习不是万能钥匙，要与医生合作寻找需求 | CCF-GAIR 2018

2018/07/17 08:53

雷锋网按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳召开，峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，得到了深圳市宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，旨在打造国内人工智能领域最具实力的跨界交流合作平台。

在6月30日下午的计算机视觉专场中，北卡罗莱纳大学的沈定刚教授发展了主题为《深度学习在医学影像分析中的应用（Deep Learning in Medical Image Analysis）》的主题演讲。

“在美国将近20年，我都是在霍普金斯大学、宾夕法尼亚大学、北卡大学教堂山分校的放射科里与医生们一起工作，因此知道他们的整个工作流程，知道怎么把我们的人工智能技术更好地应用到他们临床流程里的相应部分中去，而不是从头到尾都使用人工智能。”沈定刚教授在演讲中谈到。

沈教授现在是美国北卡罗来纳大学教堂山分校终生教授、杰出教授，美国电子和电气工程师协会 (IEEE)会士，美国医学与生物工程院(AIMBE)会士和国际模式识别协会(IAPR)会士，国家千人（短期），在国际权威期刊上发表论文400余篇，被引用2万余次。在最近Guide2Reasearch网站发布的2018年全球计算机科学和电子领域，沈定刚教授H-index 82，在该指数的前1000名华人学者中排名第13。

沈教授在1999年就前往美国约翰霍普金斯大学医学院放射科从事医学图像分析方面的工作，是世界上最早开展医学影像人工智能研究的几位科学家之一，并最先将深度学习应用于医学影像，从事医学影像分析、计算机视觉与模式识别等领域的研究近20年。

沈定刚教授认为，所谓的AI或者深度学习，只是解决问题的一种方法，方法必须为解决问题服务。他也时常告诫自己的学生：这个行业里的研究者，不能光知道深度学习，很多几十年累积起来的经典方法都必须要懂。因为一个方法不可能解决所有的问题，每种方法总有它的局限性。同时，在思路上，应该是通过问题找方法，而不是用方法来找问题。

沈定刚教授经历了人工智能由低谷转向高潮的过程，但是不管行业冷或者热，从研究生开始的20多年的研究工作中，他的主线就是用图像分析的方法来解决临床问题。

沈定刚教授率领着一个学术能力强大的团队，其实力在智能医疗领域处于国际引领水平。据了解，今年他的团队有20篇论文被医学影像AI的顶级会议MICCAI录取，其中12篇被大会提前录用。论文主要有几个研究方向：图像成像、图像配准、老年痴呆症和儿童自闭症的诊断。

沈定刚教授表示，现在国内很多初创公司的发力点集中在诊断环节，但医学是一个很长的链条，成像、检测、诊断、治疗、预后每个环节都大有文章可做。将AI应用到源头，即成像质量的提高，将会是未来的一大热点。

他的团队从成像方面入手，研究如何利用AI技术，实现低成本、快速和高质量的成像，以此发表了4篇MICCAI论文。“一方面是应用AI技术，将质量较差的影像变成质量更好的影像；第二个方面是在具体应用过程中，将病人采集过程中丢失的图像补回来；第三个方面就是快速成像，因为有些模态图像扫描慢、噪声很大，AI技术可以将需要几分钟扫完的图像在几十秒内完成，这将很好提升患者体验。”

在图像配准方面，沈教授的团队研究通过无监督深度学习方法来进行图像配准。在做医学图像分析时 ,经常要将同一患者几幅图像放在一起分析，从而得到该患者多方面综合信息，提高医学诊断和治疗的水平。对几幅不同的图像作定量分析，首先要解决的就是几幅图像的严格对齐问题。他坦言，图像配准实现起来难度也很大，远远超过图像的分割、诊断。

在深入到具体病例研究中，沈教授的团队也获得了一些实实在在的成果：3篇关于老年痴呆症诊断的论文，6篇关于儿童脑发育和自闭症诊断的论文。在接受雷锋网采访时他说道，现在关于老年痴呆症的研究非常火，但在十年前，这类研究课题在美国非常难申请，100个课题里可能只有3%-5%能够通过。老年痴呆症的研究其中一个方向是用人工智能的方法来建立脑部功能网络，用多层次的方式来表示大脑里面的网络连接，以此预测老人会不会从轻度智力障碍转变成老年痴呆症。

儿童自闭症的预测也一直是医学界的难题。通常要等到儿童3到4岁才能确认其是否患有自闭症。沈教授的团队希望借助人工智能，将这个预测时间提前至仅6个月大的婴儿，根据这个阶段婴儿的脑部结构图像来预判是否3到4岁时会患自闭症。

实际上，对自闭症的研究，沈定刚教授所在的北卡罗来纳大学教堂山分校已经累积了深厚的数据。该校在十多年时间里收集了将近2000例个体样本（包括正常儿童）。“兄弟姐妹中若有患自闭症的儿童，他们自己得自闭症的概率非常大。UNC对这类高风险儿童进行跟踪记录，在他们6个月、12个月、18个月等时间段获取他们的脑部图像。如果到3到4岁时发现患有自闭症，就返回去看他小时候的图像。正是因为有了这些延续性的数据，才有可能用人工智能方法来预测自闭症。”

去年10月，沈教授完成了一次身份转型，同时担任联影智能联席CEO。学界和业界的融合，需要沈教授花费更多的精力。他开玩笑说，从今年1月开始到现在，已经瘦了10斤。同时他也表示，业界的身份其实对学术研究帮助很大。公司在实际过程中会遇到更多、更复杂的问题，一定程度上也为研究者拓宽了思路。

以下为沈定刚的现场演讲内容，雷锋网作了不改变原意的整理和编辑：

沈定刚：非常感谢雷锋网的邀请，我演讲的题目是“深度学习在医学影像分析中的应用”。上午嘉宾们讲了很多深度学习方面的工作，其实我们在2012年就率先把深度学习方法应用到医学影像分析中。从那以后，深度学习在医学影像中的应用越来越多。现在大家关心的影像AI，我认为有一点至关重要，那就是跟医生的密切合作。

我在美国将近20年，都是在医学院的放射科（霍普金斯大学、宾夕法尼亚大学、北卡大学教堂山分校）跟医生们一起工作，从中知道他们的整个临床流程。只有知道他们的整个流程，才能把我们的人工智能技术更好地运用到临床流程的相应部分中去，而不是从头到尾整个流程都用AI，那是不可能的。

我在学术界工作了很长时间，国内有100多位高校老师从我的实验室学习回来，其中有近二十位已经成为高校的计算机学院、生物医学工程学院的院长、副院长、系主任或副系主任。现在我觉得，高校的影像AI研究与公司的影像AI持平开发之间的差异越来越小。但是，学校里做的研究，通常数据非常小，这样研究结果推广性相对较差。

今年年初开始，我领导联影智能专门做影像AI。联影智能是上海联影的子公司，联影是国内最大的生产高端影像设备的企业，其生产的影像设备，在影像前、影像中以及影像后都会需要用到人工智能技术。刚才有嘉宾提到如何将计算机视觉用到影像中去，其实这里有一个相应的例子。比如在边远地区的基层医院，我们可以给他们提供很好的影像设备，但是他们通常缺乏好的技师，不能准确地定位病人来扫描，这时候计算机视觉就可以帮助病人的准确定位，完成一键扫描。

当然，人工智能技术如果只应用在后面的诊断，而不跟影像设备结合起来，总体效果不一定好。我们要做的是全链条、全栈式的影像人工智能，也就是用人工智能优化从成像到影像的筛选，再到后面的跟踪、诊断、治疗和预后这样一个完整的流程，从而达到最佳诊断效果。

现在很多公司都在做肺结节检测，但通常是在给定图像的情况下来完成。想象一下，现在，如果把成像过程跟后面的人工智能诊断结合起来，这就像在扫描过程中有一位有经验的“医生”坐在那里，每重建一些slice图像，这位“医生”就会告诉你这里有没有肺结节，如果有可疑肺结节，设备就自动重建得密一些，正常的slice就按常规的厚度去重建。这样的结合，就有可能把后面的肺结节检查做得更好；如果让医生人工来看，也可以看得更仔细，并且不增加多少工作量。

大家都在讲人工智能，帮助医生诊断，这样的人工智能（Artificial Intelligence AI）其实是辅助智能（Assisted Intelligence AI）。除此之外，我们还要做超越人类的增强智能，这时候的Artificial Intelligence （AI）就变成了Augmented Intelligence（AI）。比如说，小孩发育过程中，如果皮层发育不好，可能会患自闭症；但是造成自闭症的皮层病变可能只有0.3%，医生手工测量要达到这个精度非常困难。我实验室里面每年有几位来自大陆以及台湾的医生，包括主任医生、副主任医生，以及来自台湾长庚医院的医生。我让他们人工来标图，他们标出来的皮层之间的差异高达30%，而且同一个医生前后两天标注的差异高达20%。因此0.3%的变化，通过手工方法是测不出来的。这时候我们需要的就是增强智能，是超越人类的“人工智能”。

刚才有嘉宾提到了标注问题。医学上的标注跟计算机视觉的标注存在很大差异。计算机视觉的标注，只要是正常人，即使没上过学，也可以标注出图里面哪里是车，哪里是人，哪里是路。而在医学领域，只有影像科的医生才可以标，而且只有有经验的医生才能标得好，但是全世界这样的医生人数有限，所以医学影像的标注非常难，非常复杂。

做影像AI，我们必须知道我们要解决什么问题，然后找相应的技术来解决问题，而不是有了技术再找问题。

我下面要讲的技术是用于解决我们手头上的两个重要问题。

第一个要解决的问题就是Baby Connectome小孩脑发育里的问题。当我们采集了6个月大婴幼儿的影像和基因信息，我们想知道，这小孩三到四岁时会不会患自闭症？我们知道，孩子在小时候脑子的可塑性非常强，如果小孩6个月大的时候我们就知道他将来会患自闭症的话，就可以提前对他进行一系列的特殊训练、特殊教育和干预。这样的话，这小孩虽然3到4岁时还会患自闭症，但等他成人以后还有可能正常地生活和工作，这是非常有意义的。

第二要解决的问题是脑子老化可能导致的老年痴呆症问题。例如，有人在70岁得了轻度智力障碍，我们的问题是这位老人会不会在几年以后转变成老年痴呆症？要回答这个问题，我们需要有比人的能力更强的AI。

先举一个例子，关于小孩早期脑发育。我们知道小孩出生后的前12个月非常重要，因为在这个阶段小孩开始学习说话、走路，有很多病变可能也在一年内发生。首先，我们来看一张同一个小孩从出生到60个月大时的脑图像。我们前一年每隔三个月对小孩的大脑进行扫描，从而获得小孩脑子前一年的变化。经研究发现，第一年小孩的大脑体积增大120%，第二年大概增大15-20%。很多早期的病变，比如自闭症，在第一年就已经可以看到相应的症状，但是第一年图像变换非常复杂。这里我们不用视频的形式，而是把图像一幅一幅显示出来。最左边是两周的图像，最右边是12个月的图像，中间是6个月的图像，可以看到红的曲线和绿的曲线几乎完全重叠在一起。

我们脑子里包含白质、灰质、皮层，皮层里的灰质包含我们的脑神经元。要在前6个月的时候就能预测小孩3到4岁的时候会不会患自闭症，需要对脑子进行一系列复杂分析：第一步是脑图像分割，就是把白质和灰质从图像中分割出来，但这是一个非常难的问题。请注意，利用现有的成人图像的所有分析方法都不能准确分割小孩的脑图像。我们可以看看用成人图像分割方法的结果，分割得杂乱无章。这方面我们在UNC做了10年的研究，投入了很多博士后和学生，这些人后来也都成为了本领域的专家，取得了很多研究成果。

除了研究脑结构之外，还可以研究脑连接（脑区之间的连接）和脑功能。有了这一系列的投入和十年的研究积累，我们才可以做刚才提到的增强智能。虽然现在有很多初创公司，但还没有一个初创公司碰这种复杂的脑图像分析，特别是小孩脑图像的分析。

我们做了一系列的研究，研究如何把图像分割开来，如何把左右脑分开。重建的脑表面有很多洞，我们也可以用人工智能（Deep Learning）的方法做自动纠正。皮层里面有内表层和外表层，如何把它翻开来，然后把整个脑子里面分成很多的区域，每个区域有不同的功能。比如说海马是管我们记忆的，老了以后，我们的记忆丧失了，因为海马萎缩了；这里面不同的颜色表示不同的脑区域。在这个应用中，给你一个三维的脑图像，我们需要用三维的方法把相应的区域识别出来；有时需要用四维甚至五维方法。例如功能图像，每过1秒采集一副功能图像，里面的每个位置测量相应的血样成分，这时候的图像是四维图像。分析四维图像，比分析二维或三维图像更复杂。另外，若要知道脑结构变化与病变的关系，和医生的合作非常重要，这是非常复杂的研究，而我这里只讲了一个分割问题。

如果你感兴趣的话，所有具体的方法都可以在我给出的论文中找到，而我只介绍一下概念。做脑图像分割，首先我们把图像分割成脑液体和脑组织，这个脑组织包括白质和灰质。很重要的一点，所谓的Deep Learning，我们必须要把它和临床信息结合起来。早晨有人问到，Deep Learning已经很流行了，是不是传统方法就没用了？如果你把前面二三十年已经研究得很好的传统技术和Deep Learning结合，其效果会有很大提高。同样，如做分割只是把脑子里的脑组织和脑液体分割开来，分割完了之后，再训练第二个神经网络，这样可以精细地把白质和灰质分开来。要做到这样非常精细的分割结果，需要很多的积累。如果只是用现有的方法，就只能看到刚才杂乱无章的结果。

下面我首先介绍联影智能公司（简称UII）做的一些研究。

第一个是癌症的治疗。医生至少要花几个小时来勾画人的器官。而我们用Deep Learning来勾画，每个器官少于一秒钟就可以完成。同时，我们想用最便宜的GPU实现最贵GPU的性能。因为在联影，手持的设备不可能用很贵的GPU，所以在这个条件下我们必须在保证准确率不下降的情况下，使用最便宜的GPU。我们基于3000个来自不同类型的CT数据（这在影像分析中其实已经是非常大的数据了，很多情况下只有几十个、几百个），这里面有大概一二十个器官，我们将它们全部分割出来，每个器官只需要0.7秒左右。

医学影像必须跟医生很好地结合起来。例如，医生在诊断老年痴呆症时，看脑子不同区域，比如说红点区域，判断脑室有没有长大，海马有没有萎缩，再综合判断这个人有没有患老年痴呆症。基于这样的诊断方式，我们利用神经网络来做训练区域的自动检测，然后利用区域信息和另一个神经网络做老年痴呆症的预测和诊断。如果一个新的病人来看医生，只需采集他的图像，通过训练好的两个神经网络就可做疾病的诊断和预测。如果这个人是轻度智力障碍，我们还可以预测5年后他会不会变成老年痴呆症。

另一个应用场景是帮助医生来看肺部图像。先用人工智能助理检查一遍，没有问题的图像可以排在最后面，有问题的图像放在最前面，医生就可以先看有问题的图像。特别是医生早晨刚来的时候，他非常清醒，所以他犯错误的可能性非常小，后面的他可以不看，即使他看的话，由于疲惫导致犯错所带来的影响也不大。现在我们的算法精度已经很高，远超同行。

刚才说到，在计算机视觉里面，你可以画一个包的轮廓，计算机会给你生成一个你喜欢的包，这个技术在医疗领域也有很多应用。这里左边是核磁共振（MRI）的图像，右边是CT图像。CT可以清晰显示人体组织在每个位置的密度，这对放射治疗非常有用。但是，如果要知道射线打进去涉及哪些地方，CT图像里面有很多软组织是显示不清楚，而MRI可以把软组织看得很清楚。如何把两者结合起来？无需既做一个CT又做一个MRI，而是从MRI中估计出像真实CT的图像。

我们可以比较用GAN从MRI生成的CT图像跟真实的CT图像，可以看出它们差异很大。如何把它做得更好？可以用Context-Aware GAN。例如，用第一个已训练的GAN，可以把MRI生产一个CT图像，但效果不太好；我们可以用这个生产的CT加上MRI训练第二个GAN，然后把它用到MRI上，生成新的CT图像；这样可以继续下去，最后得到一个高质量的CT图像。

我们比较一下，左边是MRI，右边是生成的CT，经过四层输出之后，可以看到它和真实的CT图像差异非常小。这样的图像可以用于治疗规划，但不能用于诊断，因为小的病变可能在处理过程中会丢失。这也是为什么我一直强调做医学影像一定要和临床结合起来。我认为，现在学术界和工业界的医学影像AI研究和开发是没有多大区别的，是相辅相成的。

提问：我是做传统图像的学生，我看您做的医疗图像的识别跟传统图像识别有很多共通的观点，我比较关心的是相对于传统图像来说，医疗图像在设计网络或者训练方式上有哪些特殊的问题需要进行针对性的设计？另外就是对于我们这种从传统图像想转做医疗图像来说，您觉得最大的障碍在哪里？是数据不公开的限制，比如说医院很多数据是不公开的，还是说我们对医疗方面专业知识的缺失，导致我们设计网络的时候会忽略一些信息？

沈定刚：你的第一个问题非常重要。我们要非常清楚，在进行医学影像研究时，图像里的每一个小点都是我们人体非常重要的部分，对每一点都要非常重视，这是和做传统图像识别的区别。另外，传统图像识别很多是二维的，很多人还是用二维的方法来做三维、四维的事情，但他们差异性非常大，所有的网络必须变成三维、四维。

怎么样从事医学影像研究？医学影像的门槛非常高，不能自己一个人去干，必须要有一个非常有经验的人带领。此外，医学影像要用医生的话来说医生的事情，也就是能和医生进行专业对话。所以我认为，要做好医学影像AI，必须要跟非常有经验的老师来做。今年6月27日，上海联影智能成立了医智合作培育研究中心，希望能把医院放射科医生和理工科人员聚集起来，大家一起来做医学影像AI。我们不仅提供这个平台，还帮助和指导他们更好的运用影像AI。相信他们在这里训练完之后，回到医院或者学校，自然而然就会成为该领域的专家。几年之后，相信我们中心会培养出更多人才，培养很多真正懂医学影像AI的专家，这样整个行业才能有更多的人，来一起推动行业的发展。

提问：您来到联影智能之后，在成像的研究应该给联影智能非常具有启发性的帮助，我们对联影智能也有很大期待。刚才您讲到T1和T2的成像问题，未来联影智能会考虑这种序列上的改善，然后去做这样的成像方面最前沿的尝试吗？

沈定刚：对，这都是要变成产品的。我们把人工智能的方法跟刚才我说的成像结合起来以后，所得到的结果完全让那些从事MR成像人员的出乎意外。其实，人工智能可以与很多领域结合起来，开发出很多新的技术。

专题

2018 CCF-GAIR 全球人工智能与机器人峰会查看更多文章