近日,腾讯架构平台部的高级工程师颜克洲向外介绍了腾讯在乳腺癌的病例图像识别以及钼靶识别方面的研究进展。
为什么选择乳腺癌这个方向?
他说,对于中国女性群体来说,乳腺癌是发病率最高的恶性肿瘤之一。据相关数据统计,我国每10万人中就有40多个人罹患乳腺癌。基于此,腾讯发力该领域,希望能够利用技术攻破治疗难题,以惠及更多普通人群。
雷锋网了解到,在乳腺癌的检查及研究方面,腾讯选择了两个具体方向。一、钼靶;二、病理学。
对于钼靶来说,它是一种非常常见的筛查手段,它能够普惠到基层医院。但目前很多医生在钼靶方面的研究和熟悉程度有所欠缺。因此,腾讯希望可以借助AI技术,帮助到基层医院的一些医生在钼靶方面做一些提升。
对于病理学检查方向。在颜克洲看来,该方向用计算机处理会比人类更加适合。病理学研究“区域”非常广泛,它可能有10万×10万个小细胞。如果依靠医生肉眼去看,全是密密麻麻的小细胞,这将是个非常痛苦且有巨大挑战的过程;如果用计算机去执行就会变得相对简单,它就可以将这些细胞进行拆分,做高并发研究。
在病理学图像的识别上,腾讯将其分为两个步骤。
一、在手术中或者手术后,将病人的淋巴结切下,观察癌细胞的位置及大小;
二、然后对此癌细胞进行组织学分析。组织学分析是将癌变的组织切下来,观察它的分化程度,然后来确定方案。
据颜克洲介绍,腾讯早期就做过淋巴结切片的分析。对于这个切片,从病理学图片的识别来看存在一些难点。
医学上的病理切片分析需要的是波片扫描的数据,但是目前该数据量非常少,因为它需要把整个波片全部数字化。如今很多医院都还没有普及数字病理机;另外,很多医生由于在医学院从一开始接触的就是显微镜,因此他们比较抵触使用这些机器。其实使用数字病理机只是把原先用显微镜看到的东西数字化而已。
该切片是张超级大型的图片,达到了10万×10万像素,这无论是对于人还是计算机来说,对此图片做识别和分析都有一定难度及挑战。
细胞形态非常类似。癌细胞与淋巴结上的一些巨噬细胞在形态上非常相象,但这两类细胞与普通的淋巴结细胞又有比较大的区别。
针对以上三个难点,腾讯提出了相应解决方案。
对于医疗机器的应用难题,后期可以给机器增加一些辅助功能。比如说能够帮助医生大概预估治疗结果等,这也许会逐步提升医生对于这些机器的好感;
对于超大型图片,可以化整为零,把它切成了多个patch去做分析;
而对于细胞形态,可以采用多数据融合的方式去分析,这个过程可以分为三个部分。
首先做一个浅处理,把切片中有用的部分全部切出来;
再者是进行分类。由于癌细胞与巨噬细胞非常相像,腾讯采用了一种激活的训练手段训练了两种网络:第一个是普通的正常和癌变细胞的网络;第二个是针对巨噬细胞跟癌变的一个有特别分辨能力的网络;之后又将这两个网络用一个权重进行融合得到细胞病变的概率。
得到概率之后,可以利用病灶膨胀阀过滤掉一些传统的计算机识别的特征,包括细胞核个数、假阳性的组织等等;然后再融合它原本的一些计算机视觉的特征。比如说这个小片里面细胞的密度以及细胞的一些颜色的浮动,这些信息最终用一个概率图模型来输出,紧接着处理成一张热力图;形成热力图之后,经过一些降噪的手段将其变得更加精确;最后把它的病灶点进行聚类,再确定病灶大小,给它进行N分级。
雷锋网了解到,在最近的一次对于甲状腺的研究实验中,它的病灶召回率在0.83左右,而人类的水平大概在0.7左右。
接下来颜克洲还介绍了一下腾讯在钼靶图像识别上的一些进展。他表示,腾讯之前对众多医生进行了一些调研,在钼靶图像这块总结出两个痛点:
一、医生很容易漏掉癌症的病变组织,也许是根本没有找到;
二、找到一块病灶组织,但分不清楚它的良/恶性概率是多少。
颜克洲向雷锋网透露,腾讯有尝试去解决这些痛点,但发现其中也存在一些难点。
没有大量的数据和标注去训练神经网络。
这类图片与普通图片不太一样,用普通的神经网络算法在医学中应用不太可行。
钼靶图片有其特殊之处——同病理。在钼靶图像识别率这个领域,单看一张图根本不知道患者有什么疾病。医生诊断的时候通常会对比患者的左胸和右胸图片,它的组织是基本对称的,最后来确定患者到底是不是有问题。
针对这三大难题,腾讯也做了一些探索。
数据获取方面。在数据不够的情况下,机器很大程度上在学习医生在平时诊断时的做法。它将医生的办法抽象成一个数学方法,利用医生的知识把一些可疑的病灶进行判断,然后将这些知识提取出来,应用到神经网络中去进行辅助分析。
设计专门的医用神经网络,针对非标准图片去做。
模仿医生看片的流程,在方法上做了多图对比的一个过程。
实现框架主要也有三大块:
利用NLP把标签拿到。利用NLP技术把病人的钼靶报告和病理报告拿到以后,提取它的标签,然后利用这些标签对整图做训练。
做全处理。对于此步骤,腾讯会重点根据医生的一些相应知识去做处理。
拿到label和image后,再结合与医院拿到的一些数据标记,做神经网络训练,最后分辨它属不属于癌细胞。
这其中也包含三个过程:
第一步是把钼靶报告和病理报告里面的结构化信息利用NLP技术提取出来;然后用计算机视觉的方法找到一些疑似的病灶(当然这些病灶不一定是真正有用的病灶,或者是真正癌变的病灶,但是至少可以大大缩减分析范围),把无用的一些地方去掉;再者用计算机语言来找到它的ROI,找到这些ROI以后,后面在做神经网络的分类或者训练就会相对容易得多。
第二步是进行多图对比。将两张图片利用医学图像的技术做对齐;对齐以后再做一个差分;差分完了以后,再将结果返回到刚才的第一步做循环,去找到那个关键的、感兴趣的组织。
第三步也是最关键的步骤,拿到了ROI以后,将它放到神经网络里面去训练,训练它是或者不是癌变细胞,但是正如前面所言,其实目前的标注量用来训练神经网络是远远不够的。因为神经网络的训练一定是需要成千上万张这样的一个级别,因此一定要融入一些其他的医学知识。
融入哪些医学知识呢?
一、一些计算机视觉特征的知识。将病灶放到神经网络里面去,其实会丢失很多特征。比如说在原图位置的特征、大小特征、毛刺特征等等。然后将这些特征用另外一条通路把它描述出来;
二、医生在给患者做诊断时所依赖的一些特征。值得注意的是,还要对患者的年龄、性别、以及既往病史作了解并进行处理,最后用概率图模型将这些特征做融合,得到良/恶性的概率。
颜克洲补充说,腾讯目前在研究良/恶性病灶方面也有一些进展。在疑似病灶的地方,腾讯大概在每张图有1.5个假阳性的情况下可以获得80%的病灶覆盖率,该水平已经超过了人类。
他透露,接下来腾讯对于乳腺癌这个方向在诊断方面一定会融合尽量多的医学信息,尽量把患者的一些病历数据、影像数据、基因数据做多数据的融合,最后对病人做出一个综合的诊断,而不仅仅是把它当成一个图像工程去做。
如今基于AI的相关技术正联合各项应用及研究走进人们的生活,来到人们的身边。正如AI应用于乳腺癌识别一样,这一切都是为了让人人都享受更好的医疗服务,期待相关企业和机构在乳腺癌项目上的研究能够尽快有所突破,造福普通患者。