人工智能尤其是深度学习技术的成熟使得市场上出现了很多AI辅助诊断产品。人类基因组测序技术的革新、生物医学分析技术的进步、以及大数据分析工具的出现,为病人提供更精准、高效、安全的诊断及治疗。
自从2016年阿尔法狗在围棋界全面战胜人类智慧,人工智能会不会战胜人类甚至取代人类的话题再次被摆在了风口浪尖。医学领域作为人工智能应用的热门领域也不可避免。一时间,AI与医生似乎站在了一个尖锐的对立面。
IEEE Spectrum在2018新年伊始推出专刊“AI vs Doctors”,统计了从2016年5月至今,AI在医疗领域的进展,并对比各大细分领域AI与人类医生能力差距。下面,雷锋网就带你看看在过去的一年里研究团队的重大突破,梳理一下在哪些疾病领域,AI已经可以与医生媲美,又在哪些方面还力有未逮。
仅在美国,每年就有超过100万成年人因为肺炎住院,5万人因为该病而死亡。
深度学习著名学者吴恩达和他在斯坦福大学的团队一直在医疗方面努力。吴恩达团队提出了一种名为CheXNet的新技术。研究人员表示:新技术已经在识别胸透照片中肺炎等疾病上的准确率上超越人类专业医师。
算法被称为CheXNet,它是一个121层的卷积神经网络。该网络在目前最大的开放式胸透照片数据集“ChestX-ray14”上进行训练。ChestX-ray14数据集包含14种疾病的10万张前视图X-ray图像。
CheXNet在使用胸透图像识别肺炎任务上的表现超过放射科医师的平均水平。在测试中,CheXNet与四名人类放射科医师在敏感度(衡量正确识别阳性的能力)以及特异性(衡量正确识别阴性的能力)上进行比较。放射科医生的个人表现以橙色点标记,平均值以绿色点标记。CheXNet输出从胸透照片上检测出的患肺炎概率,蓝色曲线是分类阈值形成的。所有医师的敏感度-特异性点均低于蓝色曲线。
雷锋网对此成果进行了详细报道,详情请点击:《吴恩达团队发布最新医学影像成果,用 CNN 算法识别肺炎》
2017年5月发表在《公共科学图书馆期刊》(PLOS One)上的一篇论文中显示,大约有一半的心脏病发作和中风发生在没有被标记为“有危险”的人群中。
目前,评估病人风险的标准方法依赖于美国心脏协会和美国心脏病学会制定的指导方针。医生们使用这些指导方针,将重点放在已确定的危险因素上,如高血压、胆固醇、年龄、吸烟和糖尿病。
英国诺丁汉大学的研究人员创建了一个AI系统来收集病人的日常医疗数据,并预测在10年内他们中的哪些人会发生心脏病或中风。与标准预测方法相比,人工智能系统正确预测了355例患者的命运。
研究人员Stephen Weng和他的同事们在全英国378256名患者身上测试了几种不同的机器学习工具。这些记录追踪了2005年至2015年患者及其健康状况,并包含了人口统计学、医疗条件、处方药物、医院访问、实验室结果等信息。
研究人员将75%的医疗记录录入他们的机器学习模型中,以找出那些在10年时间内心脏病发作或中风的患者的显著特征。然后,Weng的小组对其余25%的记录进行了测试,以确定他们预测心脏病和中风的准确程度。他们还测试了记录子集的标准指南。
如果使用一个1.0表示100%准确度的统计数据,标准指南的得分为0.728。机器学习模型的范围从0.745到0.764,最好的分数来自于一种叫做神经网络的机器学习模型。虽然机器评分听起来可能不是一个彻头彻尾的胜利,但用一串数字可以表明,AI在疾病预防方面所取得的优势:神经网络模型预测,在7404例实际病例中,有4998例患者心脏病发作或中风,超过标准指南355例方法。有了这些预测,医生可以采取预防措施,例如开药降低胆固醇。
2017年2月,北卡罗莱纳大学教堂山分校的一个研究小组发现,6个月大的孩子的大脑生长变化与自闭症有关。研究人员利用深度学习算法和数据来预测一个患自闭症高风险的孩子在24个月后是否会被诊断出患有自闭症。
该算法正确地预测了高危儿童的最终诊断结果:准确率为81%,敏感性为88%。相比之下,行为调查问卷对早期自闭症的诊断准确率只有50%。算法使用了三个变量——大脑表面积、脑容量和性别(男孩比女孩更容易患自闭症)——该算法识别出10个自闭症患儿中的8个。
作为婴儿脑成像研究的一部分,美国国家健康资助研究机构对自闭症早期大脑发育进行了研究,该研究小组招收了106名有自闭症家族史的婴儿以及42名没有自闭症家族史的婴儿。他们在6、12、24个月的时间里扫描每一个孩子的大脑。研究人员发现,在6到12个月的时间里,婴儿的总体大脑发育没有任何变化。但是在后来被诊断为自闭症的高危儿童的大脑表面积有显著的增加。换句话说,自闭症儿童发育中的大脑首先在表面积上扩展了12个月,然后在整个体积中增加了24个月。
研究小组还在24个月的时间里对孩子进行了行为评估,那时他们已经足够大了,可以开始展示自闭症的标志性行为,如缺乏社交兴趣、语言迟缓和肢体重复性动作。研究人员指出,大脑过度生长的程度越大,孩子的自闭症症状就越严重。
尽管新发现证实了与自闭症有关的大脑变化在生命早期就发生了,但研究人员并没有就此止步。在UNC和查尔斯顿学院的计算机科学家们的合作下,研究小组建立了一种算法,并测试它是否能够利用这些早期的大脑变化来预测哪些孩子日后会被诊断为自闭症。
患者都希望在医生进行外科手术时,能够将对自己身体的伤害降到最低。最近的一系列实验中,智能自主机器人STAR的发明者表明,它能比专家外科医生执行更精确的切割,并且对周围健康组织伤害更小。STAR此前曾成功地完成了一些令人印象深刻的手术壮举。2016年,该系统将两个部分的猪肠子缝合起来,比有经验的外科医生更有规律,更有防漏性。
STAR通过可视化地跟踪其预定的切割路径和切割工具,并不断调整其调整计划以适应移动。
在这种视觉跟踪中,机器人依赖于其近红外照相机上显示的微小的标记,而这正是研究人员事先在组织上标记的位置。因此,研究人员将恒星称为半自主机器人。
机器人和外科医生都被要求剪出一条5厘米长的直线。因为外科医生被训练在已知的地标之间切割组织,所以在皮肤上画了参考线。机器人和人类的判断依据是它们偏离理想长度的理想切割线,以及在切口周围有多少焦炭(受损的肉)。结果:机器人的切割长度更接近5厘米,焦炭也较少。
研究人员表示,下一步是训练STAR处理具有复杂三维形状的肿瘤,这将需要新的摄像机来进行视觉跟踪和更复杂的外科规划软件。
阿尔茨海默病没有临床试验,因此医生通过评估患者的认知能力下降来诊断。但对于轻度认知功能障碍(MCI)特别困难,即症状不明显时痴呆的早期阶段。而且更难预测哪些MCI患者会发展为阿尔茨海默病(并非所有的都是这样)。
2017年6月,哈佛大学、马萨诸塞州总医院和华中科技大学的合作者设计了一个将fMRI脑部扫描与临床数据相结合的程序来进行阿尔茨海默病的预测。他们在5月在马来西亚吉隆坡举行的IEEE国际通信大会上介绍了尚未发表的工作。
经过初步测试,他们的深度学习计划与特殊的fMRI数据集配对,比其他使用更基本的数据集的分类方法精确约20%。然而,当那些传统的分类器也使用特殊的数据集时,它们在准确性上也有类似的提高。
目前,哈佛领导的团队是第一批尝试将fMRI扫描和深度学习结合到一个可以预测MCI患者患老年痴呆症的机会的项目。他们的分析中使用的fMRI扫描是在病人休息时进行的。与任何fMRI扫描一样,它们揭示了大脑中电信号闪烁的位置以及这些区域如何相互关联。
他们以来自MCI患者的数据和阿尔茨海默氏病神经成像的101例正常患者开始。基于对参与者大脑内90个区域的130次功能性磁共振成像测量的时间序列,研究人员可以分辨出信号在一段时间内闪烁的位置。
接下来,在关键的一步,该小组处理这个数据集,以创建这些信号在大脑区域相对于彼此的强度的二次测量。换句话说,他们构建了功能连接图,显示了哪些区域和信号彼此关系最密切。
最后,团队建立了一个深度学习计划,可以解释这些模式的强度,并结合有关年龄,性别和遗传风险因素的临床数据,预测一个人是否会发展为阿尔茨海默病。研究小组表示准确率可以达到90%。
在治疗脑癌的过程中,时间是至关重要的。
在一项新的研究中,IBM沃森仅仅花了10分钟分析了一名脑癌患者的基因组,并提出了一项治疗计划,展示了人工智能药物改善病人护理的潜力。尽管人类专家花了160个小时来制定一个类似的计划,但这项研究的结果并不是机器对人类的全面胜利。
这个病人是一个76岁的老人,他去看医生,抱怨头痛和走路困难。脑部扫描发现了一个恶性的胶质母细胞瘤,这是外科医生迅速操作的;然后,他接受了三周的放射治疗,开始了漫长的化疗过程。尽管得到了最好的照顾,他还是在一年内去世了。尽管沃森和医生都对病人的基因组进行了分析,提出了一种治疗方案,但从他的手术中提取的组织样本已经被测序,病人的身体已经衰退得太厉害了。
IBM沃森的关键特性是其自然语言处理能力。这意味着,沃森的基因组学可以通过目前医学文献上的2300万篇期刊文章、临床试验的政府列表以及其他现有的数据来源,而无需重新格式化信息并使之易于学习。沃森的其他举措也让系统获得了患者的电子健康记录,但这些记录并没有纳入这项研究。
研究人员将IBM Watson进行的基因组分析结果,与NYGC的医学专家团队进行比较,后者由治疗肿瘤科医师,神经肿瘤专家和生物信息学家组成。
IBM Watson和专家团队都收到了病人的基因组信息,并确定了显示突变的基因,通过医学文献查看这些突变是否已经在其他癌症病例中发现,寻找药物治疗成功的报告,并检查这位患者有资格参加的临床试验。不过,人类专家团队做完这些,花了160个小时,而Watson则在10分钟之内做完。
但是,Watson的解决方案是最快提出的,但可能不是最好的。NYGC的临床医生确定了两个基因突变,综合考虑后,医生建议患者参加一个针对两种组合药物治疗的临床试验。而如果当时病人的身体条件允许,那么他将被纳入这个试验。
但是,Watson没有这样综合考虑这个信息,因此没有建议进行临床试验。
中山大学眼科医生Haotian Lin与西安电子科技大学Xiyang Liu的研究小组合作,开发了一种能诊断先天性白内障的AI程序CC-Cruiser,利用深度学习算法,预测疾病的严重程度,并提出治疗决策建议。
首先,在计算机模拟中,人工智能程序能够区分病人和健康的个体,准确率达98.87%。在三个关键指标(晶状体混浊面积、密度和位置)上,准确度都超过了93%。不仅如此,系统提供的治疗建议的准确率,也达到了97.56%。
接下来,该小组进行了一项临床试验,使用了中国三家合作医院的57张儿童眼睛图像。CC-Cruiser表现良好:98.25%的识别精度;在所有三个严重因素中超过92%;治疗建议的准确性为92.86%。
为了模拟真实世界的使用,他们直接将程序与个人眼科医师进行了比较。一名专家、一名专家和一名专业眼科医生,对50例临床病例进行了面对面的诊断。计算机和医生的表现可比性。该程序在医院的试验中错误地标记了一些病例,林希望一个更大的数据集可以改善它的性能。该团队计划建立一个协作的云平台,但林强调,该技术“不足”,无法确定最佳治疗方案,准确率达到100%。“因此,医生应该充分利用机器的建议来识别和防止潜在的错误分类,并补充他们自己的判断。”
2017年1月发表在《自然》杂志上的一项研究表示,斯坦福大学一个小组开发的算法识别皮肤癌的准确率与专业的人类医生相当。
斯坦福大学在GoogleNet Inception v3的架构上建立了深度学习算法,这是一种卷积神经网络算法。斯坦福大学的研究人员随后对该算法进行了微调,收集了2000例不同皮肤癌病例的12.9万张图像,这是用于皮肤癌症分类的最大数据集。
在这项研究中,该算法对21名有执照的皮肤科医生进行了面对面的调查。医生们检查了数百张皮肤病变的图像,确定他们是否会对其进行进一步的测试,或者向患者保证它是良性的。该算法回顾了相同的图像并给出了诊断结果。AI的表现与专家一致。例如,该程序能够区分角质细胞癌——最常见的人类皮肤癌症——以及称为脂溢性角化病的良性皮肤增生。
斯坦福大学的项目在为现实世界做好准备之前,需要接受更严格的案例。研究人员并没有要求该算法区分,例如,seborrheic keratoses和黑色素瘤,这是很难做到的,Leachman说。
由于皮肤科医生只能根据照片来作决定,所以目前还不清楚计算机是否能与他们在临床设置方面的专业知识相匹配,他们可以在那里对病灶进行物理检查,并阅读病人的病史。“触摸是有作用的,”Leachman说。
Leachman说,如果这个算法在现实世界中证明了自己,那么它就有一个巨大的优势。她说:“(医疗)系统被那些不需要被看到的人所负担。”她说,一种能够筛检这些病例的电脑,可以让真正需要医生帮助的病人更快更有效地进行治疗。
2017年11月消息称,一家中国制造商和由比尔·盖茨支持的合资企业将宣布一种将显微镜商业化的计划,该显微镜使用深度学习算法,在20分钟内自动识别并计算血液涂片中的疟原虫。在蚊子传播的疾病每年导致近50万人死亡的时候,人工智能显微镜能够加速诊断和标准化疟疾的检测。这种由AI驱动的显微镜的实验版本已经表明,它能够很好地检测到疟疾寄生虫,从而达到世界卫生组织的最高标准,即“能力等级1”。这一评级意味着它的性能与训练有素的显微镜专家旗鼓相当,尽管研究人员指出,一些专家使用显微镜仍然可以胜过自动化系统。
这种显微镜可以证明特别有助于追踪在东南亚传播的耐多药菌株的治疗。“这种多药耐药性监测依赖于非常可靠的显微镜,以了解疟疾药物如何迅速减少血液中的寄生虫数量,”全球优质基金的全球卫生技术主管David Bell说。“我们看到,机器学习可以在这个领域带来更多的准确性和标准化,并允许各国更有效地实施监控。”
正在开发的EasyScan GO显微镜将结合明场显微镜技术和运行深度学习软件的笔记本电脑,该软件可以自动识别导致疟疾的寄生虫。人类实验室的工作人员大多将注意力放在制备血液样本的玻片上,在显微镜下观察并验证结果。
Intellectual Ventures在华盛顿贝尔维尤的首席研究员Ben Wilson表示,疟疾寄生虫为深度学习算法提出了一个棘手的“罕见的对象问题”,通常需要大量的训练数据来准确地识别对象。微小的疟疾寄生虫可能只会出现在血涂片的数百个显微镜图像中少数几次,在感染水平非常低的情况下,10万个红细胞中可能只有一个疟疾寄生虫。
该解决方案需要将深度学习和用于分割图像中感兴趣事物的传统计算机算法相结合。它还需要大量基于制备的显微镜载玻片的培训数据。原型显微镜扫描每张幻灯片的速度大约与专家人类显微镜专家相当,每张幻灯片20分钟。但Wilson预计最终能够将扫描时间缩短一半,每张幻灯片只需10分钟。
更重要的是,即使现有版本的显微镜可以补充有限数量的训练有素的显微镜可用于确定疟疾和追踪多药耐药性疟疾。 Motic公司的Nunnendorf说:“从本质上讲,这是一个巨大的效率提升,而不是实验室技术人员的机器人替代。
11月,由卡内基梅隆大学机器学习系副主任邢波教授创立的 Petuum 公司近期发表了几篇论文,介绍了如何使用机器学习自动生成医学影像报告,从而更好地辅助医生做治疗与诊断。
医学影像在临床实践中被广泛应用于诊断和治疗。专业医师阅读医学影响并撰写文字报告来描述自己的发现。对于没有经验的医生来说,撰写报告很可能会出错,对于人口众多的国家的医生来说,这样的工作又耗时又枯燥。为了解决这些问题,邢波教授的团队研究了医学影像报告的自动生成,作为人类医生更准确高效地生成报告的辅助工具。
为了应对这些挑战,邢波的团队建立了一个多任务学习框架,共同执行标签的预测和段落的生成;提出一个共同注意机制(co-attention mechanism),将包含异常的区域标注出来;利用一个层次LSTM模型来产生长的段落。
邢波的研究团队认为,他们工作的主要贡献是:提出了一个多任务学习框架,可以同时预测标签和生成文本描述;引入一个用于定位异常区域的共同注意机制,并生成相应的描述;建立一个分层的LSTM来产生长句和段落;进行大量的定性和定量的实验,以显示实验方法的有效性。
雷锋网对此成果进行了详细报道,详情请点击:《CMU 邢波教授团队最新成果:利用 AI 自动生成医学影像报告》
继利用AI自动生成医学影像报告之后,邢波团队随后又出新成果,研究如何使用深度学习技术来协助医生根据病人就诊记录中的健康信息来预测其出院用药。他们设计了一种卷积神经网络来分析就诊记录,然后预测病人在出院时的用药。
该模型可以从非结构化和有噪声的文本中提取语义表征,并能自动学习不同药物之间的药理相关性。团队在 2.5 万份病人就诊记录上对该模型进行了评估,并与 4 种基准模型进行了比较。在宏平均 F1 分数上,该方法相对于最好的基准模型有 20% 的提升。
该模型的输入为就诊记录,输出是病人的出院用药(一种或多种)。该模型具备两种功能:能有效地从有噪声的和非结构化的原始文本中提取高层次的语义并能适当地考虑连续词汇之间的序列结构;其次,该模型能学习不同药物之间的药理相关性。
邢波团队发现,只有使用入院时可用的信息才能准确预测出院药物。这样的预测可以为医生提供有价值的信息来制定治疗计划。在8种药物中,CNN模型达到0.63的(微观平均)精确度,召回率为0.70。团队研究人员也表示,解决方案的灵感是从一个特定的任务中得来的,但它也可能成为其他临床预测任务的通用方案。例如,通过将目标标签从药物转移到疾病,CNN就可以被用于辅助诊断。
文章详情请点击:《CMU 邢波教授团队再出新成果:利用深度学习技术预测出院用药》
我们必须承认, AI带来的变革,类似于几个世纪前蒸汽机工业革命对社会各个方面带来的巨大的影响,不仅仅一个行业,对全社会的体系都影响深远。随着人工智能时代的到来,医疗产业同样面临着挑战与机遇并存的局面。AI在颠覆我们传统医疗观念的同时,也在积极构建我们对现代医疗的概念和憧憬。更重要的是,医生也在尽他们所能,为人类的医疗事业继续谋福音。
AI vs Doctors,就像两位武林高手一样,其实结果并不重要。