2019年8月24-26日,第三届图像计算与数字医学国际研讨会(ISICDM 2019),在西安索菲特酒店召开。研讨会由国际数字医学会与国家天元数学西北中心联合主办,西安电子科技大学数学与统计学院与空军军医大学(第四军医大学)生物医学工程学院联合承办。
雷锋网&AI掘金志第三次作为大会首席合作媒体,全程参与ISICDM的报道。
在8月24日上午的数字医学与智能诊疗分会上,复旦大学的宋志坚发表了题为《深度学习用于计算机辅助诊断与治疗:面临的问题、机遇与挑战》的演讲。
宋志坚教授是复旦大学特聘教授、数字医学研究中心主任、上海市MICCAI(Medical Image Computing and Computer Assisted Intervention )重点实验室主任。
在演讲中,宋教授分享了团队在前列腺mpMRI(多参数磁共振)诊断、临床数据增强以及头颈部放疗危险部位分割的成果。
以mpMRI诊断为例,因为数据量和特异性的问题,判断前列腺癌是否具有临床显著性风险,这是一个非常大的临床需求。宋教授的团队建立了一个专门用于前列腺癌诊断的网络架构,成绩连续八个月在ProstateX Grand Challenge排在第一。
此外,宋教授还就AI在医疗领域的前景发表了自己的看法:“从经济角度来看,自第三次工业革命以来,新的创造财富的科技动力还没有真正到来,大家均在期盼第四次工业革命为人们带来新的机遇和发展动力。”
其中就包含了对人工智能所寄予的希望,深度学习是人工智能的核心技术之一。但是,目前深度学习还存在四个方面的问题(尤其是在医学上的应用):个别舆论宣传偏离了科学本身、监管政策、黑箱问题、隐私与黑客攻击以及数据的数量与质量。
以下是宋志坚教授的演讲内容,雷锋网作了不改变原意的编辑
宋志坚:我本人是从事手术导航、手术机器人领域研究的人员。这几年,人工智能尤其是深度学习得到了广泛应用,我们也开展了一些这方面的研究工作,今天想结合我们实验室工作的具体工作,和大家交流一下深度学习给医学诊断和治疗带来的机遇及其存在问题。
大家都知道,要让计算机为我们人类工作,帮助我们解决问题,大致可以分为两个思路。
第一个是人工建模的思路,这种思路的步骤是首先提出问题,然后对问题进行深入的分析和探讨,在这个基础上提出算法,然后再根据算法来进行编程。
另外一种思路就是机器学习方法,它也是人工建模,最典型的就是神经网络,但是人工仅建一半的模型,剩下的一半模型,例如神经网络的参数不是人工确定的,而是通过对数据进行训练而获得,亦即,根据我们希望输出的结果和实际结果的差异,经过反复迭代而最终将网络参数确定下来。
如果网络的隐层很多,一般称之为深度学习网络。这几年深度学习的发展很快,它能解决许多非线性的问题。
以往我们靠人工建模较难以解决的问题,现在通过深度学习很可能可以取得很大的进展。也就是说,深度学习给我们带来了许多机遇。
牛津大学的科研人员进行了一个评估,今后几年哪些工作有可能会被人工智能所替代。其中与我们医务人员最相关的就是外科医生,从2016年算起,35年左右就有可能会被人工智能所替代(文章并未详细说明替代到什么程度)。
近年来,深度学习在医学诊断和治疗方面的研究有很多,我们可以快速回顾一下这方面的进展。
首先我们看一下人工智能在肺结节诊断方面的相关实验,18名放射学专家有17个被人工智能超过;肺炎、心脏肥大的AUC指标分别是0.63和0.87;3D CT 诊断在中风方面的研究AUC达到了0.73。
而且,深度学习的诊断速度很快,是人工的150倍。
此外,还有利用深度学习对基因组学进行研究的案例。
在皮肤病方面,皮肤癌的诊断准确度达到0.96,黑素瘤方面达到了0.94。这方面的研究很普遍,进展也很快。上面这个是很典型的基因组学的网络结构,由于时间关系就不展开描述了。
这个是电子病历,它将影像学、基因组学还有电子病历作为输入和训练对象,所建立的网络可用于对疾病进行自动诊断。
人们对某一事物的认识往往是通过科学实验或临床实践而来。针对深度学习在疾病诊断和治疗领域的应用,我们实验室开展了一些工作,我借助这个机会把我们的工作简单介绍一下,具体介绍三个实例。
第一个介绍的是前列腺癌诊断的问题,判断前列腺癌是否具有临床显著性风险,这是一个非常大的临床需求。
我们用的是多参数磁共振的数据,因为图像量非常大,所以医生诊断工作量就很大;另外一个重要原因是,医生通过MRI对前列腺癌的诊断,和CT对肺脏、肝脏疾病的诊断不一样,前列腺癌的特异性不是很好,诊断的难度要大一些。
所以,通过多参数磁共振图像实现对前列腺癌的诊断诊断,是大家都在研究的前沿问题。
我们的整体思路是这样:
首先,我们对前列腺癌进行一个大致的位置确定,即预处理。
其次,我们建立一个专门用于前列腺癌诊断的网络。在这个基础上,我们对它进行训练测试,看看它的准确性,这是总体的框架。
具体而言,对每一种参数的前列腺的数据,我们有一个连续卷积的过程。我们看每一个小方块,放大以后是这样的。我们对某一个图像,比方说256*256的图像,首先是3*3*64的卷积,卷积以后就形成了256×256*64个卷积。
卷积结束以后,我们再进行一个1*1*64的卷积的操作。这样就把256*256*64变成了256*256*1,这是3*3的卷积,然后紧接着是一个5*5的卷积。
最后,我们把这两个卷积连起来,再进行一个pooling的操作。那么2*2的pooling之后,256*256就变成了128*128。
回过头来看,假设是256*256的图像,再是128*128*64,一直下来是一个8*8的图像,我们把8*8图像的每一个像素、每一个参数的卷积,结合前列腺癌的位置,把它连起来进入全连接进行判断,最后可以得出一个结果。
我们用的数据集是SPIE所提供的Prostate X挑战赛数据集,训练集利包含204名患者的330个病变,测试集包含了142名患者的208个病变。
现在测试下来,我们的成绩连续八个月排在第一。
我认为,最关键的是建立了一个专门用于前列腺癌诊断的网络架构。
我们做的第二个工作是临床数据增强。
在前列腺穿刺导航研究当中,首先要对前列腺进行分割。这里面会遇到一个问题,就是临床数据包括前列腺数据的获取很难。此外,医生在这方面的工作量很大。
因此我们做了一个图像增强的工作,也就是怎样由小数据形成大数据。
这个工作的基本思路是这样:
首先我们对图像进行预处理。在此基础上,我们针对每一个训练集的图像,用统计模型对数据进行增强。也就是说,从概率统计上看,前列腺的轮廓最大概率的形状有哪些?
所以,根据一组轮廓能生成多个新的轮廓,然后对某一个生成的轮廓,找到最接近的那个轮廓所对应的图像,然后用轮廓之间所对应的最接近的关系,把对应图像的纹理进行插值。
这样,就由小数据生成了大数据。它的基本思路是这样的,然后把原来提供的数据和我们生成的数据进行训练,得出结果。
这个是由小数据生成大数据的一个图示化结果。
我们可以看到,上面是原来提供的数据,下面是我们模拟生成的。可以看到,我们生成的图像很漂亮,像真的一样,那么它有没有用呢?
我们做了试验,使用CNN和Unet进行验证。可以看到,随着生成数据的增加,图像分割精度也在迅速提升。
所以,我们生成的数据在网络训练中是起作用的,能够在数据不足的时候,用数据增强的方法,部分地解决问题。
这是我们以图像分割为例对数据增强做的试验,对增强的数据进行验证,上图分别是2D和3D上的前列腺分割结果。
第三个工作是头颈部放疗危及器官的分割。
头颈部放疗,通常要对一些危及器官进行规避,即放疗中不能损害到到这些危及器官。这么多的危及器官,一般有9到10个,要靠人工勾画,医生的工作量很大,有没有可能用人工智能的方法把危及器官自动分割出来。
我们工作的基本思路是这样:首先,因为训练集的图像已经是分割好了,我们把分割好的图像把它提取出来,其他的都不要了,这样就形成了两个系列的图像。对这两个系列的图像因为它训练速度的问题我们进行了下采样。
对这个图像,我们经过传统的计算方法,把已经分割好的地方用一个小的立方体框住。
首先,训练找到头颈部某一个器官的大致位置,把这个图像输入第一个名为LocNet的网络(基本结构和Unet相似),对它进行训练。
训练是以我们关注的器官的位置作为标准,看看我们训练的和它有什么区别?如果有区别的话,再进行迭代把这个参数确定下来。
最后结果是,把整个器官的位置定位下来,然后根据这个位置来找到对应图像的位置,然后仅对这幅图像我们所确定的与器官相关的位置进行第二次训练,我们叫SegNet,通过它进行训练分割。
测试数据时,当两个网络结构定下来以后,把这个数据先定位,然后在定位的基础上进行分割。
这个是我们分割的具体可视化的结果。
可以看到,九个位置的分割都比较准确。当然这里面也有不准确的,我们的测试数据有部分不是很准确。
从整体平均数据比较,我们用了两个参数。
一个是Dice系数。与国际上其他方法比较,九个部位里有五个排名第一,两个排第二;第二个,95% HDs距离,九个部位里有七个排第一,两个排第二。可以看出,我们的工作还是比较成功的。
最后是我们的一些思考,对今后的机遇问题简单介绍一下。
我们可以回顾一下工业革命的历史。
第一次工业革命以蒸汽机为标志,这个和医学没有太大关系,最起码没有直接关系。
第二次工业革命的标志是电力的发明,这个应该说和医学有间接关系。
以计算机及信息技术为标志的第三次工业革命和医学的关系就密切多了,比方说CT、核磁共振、PET等均得力利于计算机技术。亦即,信息技术推动了医学的发展,尤其是推动了诊断和治疗的进步。
现在,第四次工业革命尚未到来(有人说即将到来),而第三次工业革命的红利已基本耗尽,这意味着什么呢?
意味着,新的增长点没有形成,财富增量正在逐渐缩小,国际上部分利益集团,尤其是老牌发达国家的利益集团,要维持原来的生活水平,就不得不从别人口中抢蛋糕。所以大家就可以看到国际上会出现一些怪现象。例如,你不能生产电视机,而我可以,那么我获得了很多财富;以后你能够生产了,但是我的质量比你高,我还是能够盈利。但如果技术长期没有突破,后来居上,那么原来生产电视机的厂家利润便会迅速下降。
在第四次工业革命的浪潮中,谁抢占了先机,谁就将获得更大的发展的空间。因此,这几年对国家间的竞争非常重要。
目前,新的增长点有可能集中在如下几个方面:一个是人工智能,其核心应该是deep learning(深度学习),此外还有可控核聚变、石墨烯、量子信息、新能源等等。其中和医学关系最密切的就是deep learning,但是,现在要在这方面实现突破的话,还有许多问题需要解决。
一、舆论偏离了科学
我们现在舆论上宣传的内容和实际上有一些差异。首先我们应该认清,深度学习和传统方法最大的不同是,它并非完全依靠人工建模,而是相当程度上依靠大数据训练形成参数并确定模型。因此,过去许多人工建模解决不了或解决不好的问题,通过深度学习能够为我们提高新的机遇。但同时,我们也要看到,深度学习也存在一些自身的问题。例如,传统建模的方法如果推理很严谨,那么一百个数据进去,一百个都是准确的。而人工智能这种方法,一百个数据进去可能有几个是不准确的,但是在临床上,这一百个数据是不允许出现问题的。
二、监管政策
监管政策法规会限制深度学习在临床上的应用。举个例子,比方说国际工程师协会将自动驾驶分为五级,第五级就是完全的自动驾驶,人已经完全不干预。但是,现实政策上限制在Level 4上,也就是说,不能完全是自主驾驶,最起码人要在旁边看着。
在临床层面应用人工智能的话,大家普遍应该是Level 3。就是说,不能把对疾病的诊断的重要事情全部交给人工智能,最起码现阶段很长一段时间内不行。
三、黑箱问题
欧洲通用数据保护条例规定,如果要把AI用在医学上,尤其是用在临床上,必须要对所建立网络的基本原理作出解释,这个恰恰是人工智能、深度学习的弱点。
四、隐私和黑客攻击,数据如何避免遭到黑客的攻击
五、数据的数量和质量
如果我们在临床上获得数据的时候,临床上标记错误,这些都是深度学习在医学上尤其是临床上应用需要解决的问题。
举一个很典型的例子,这是今年4月发表在美国妇产科杂志上的一篇文章,它是用两种模型,对白蛋白水平与宫颈癌预后结果的关系进行判断、推测。
深度学习得出来的结果和临床共识,以及我们传统模型得到的结果不一样。
人工智能认为该蛋白的水平和宫颈癌的预后没有直接关系。那么,按照传统的思路,这应该是一个比较重要的发现。
但是要让大家接受这个研究结果,需要解释为什么。人工智能是如何得出这个结果的。
所以这篇文章在讨论的部分说到:我们研究遗憾的地方在于,深度学习不能解释为什么出现这个结果。我们只能说,所训练的网络测试下来是这样一个结果,大家要接受这个结果,需要深度学习有更深入的解释。雷锋网