With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.
今年6月底的《新英格兰》刊出了一篇观点文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》,《机器学习和医学预测--远超过高期望的峰值》,文章的批判方法算是很给深度学习这个新工具留面子了。
这里插播一句,我最近接触了一些自称主要关注医疗方向的投资人和创业者,发现有些人居然不知道这个地球上影响因子排名前几的临床医学期刊。《科学》杂志主刊2016年影响因子37.205分,《自然》主刊是40.137,而《新英格兰》是72.406分。当然,有可能这些人也不知道什么叫影响因子。
这篇文章借用了Gartner的技术成熟度曲线Hype Cycle,讲述现在对于医疗界来说深度学习处于过高期望的峰值(Peak of Inflated Expectations)时期,希望我们正确的理解这项技术的能力和局限性,继而进入幻想破灭的底谷期 (Trough of Disillusionment),而不是彻底性的崩溃,然后才有然后:稳步爬升的光明期 (Slope of Enlightenment)和实质生产的高峰期 (Plateau of Productivity)。
文章用严谨和隐晦的语言,指出了现在医学人工智能界做的一些不靠谱、不合医学逻辑和没有临床价值的事情。回观国内市场,这些不靠谱、不合医学逻辑和没有临床价值的事情反而愈演愈烈,耗费了大量的资本和医疗资源,可谓几大乱象。
医学是讲证据的学科,如何证明一项临床成果的先进性,实用性和稳定性,是个学问。
也许是阿尔法狗给大家带了个头儿,觉得用人工智能PK人类只要是平了或者赢了就是证据,于是大江南北人机大赛屡见不鲜:《人工智能PK最强医脑系列大赛》、《首届人机读片竞技大赛召开》、《AI-医师读片竞赛》、《XXX达到/超过人类医生的水平》等等,伴随着这些大赛的,往往是一系列的发布会。一共就十几个甚至几个医生参与,一共就几百张甚至几十张医学影像,最后的百分数结果保留至少四位有效数字,能够证明毛线?且不说是否有为了发布会安排结果的嫌疑,单就医生的水平、状态,数据随机性和广泛性都是论证过程中不堪一击的节点,不能细想不可追问。
医学是讲证据的学科,可是总有一些问题是没有办法证明对错的。
最典型的就是做个体诊断的预测。预测,根据特征人群的患病概率来指导筛查是有价值的,但是对于个体诊断进行的预测是无法证伪也是不科学的。比如,预测特定的个体将有80%的概率患肺癌,和预测30%有本质区别吗?得肺癌可以说明前者更准吗,不得肺癌可以说明后者更准吗,没得肺癌可以证明明年不得吗?深度学习这个工具有一个所谓必杀技:有问必答。别问它怎么得出来的,它声称是有“像人脑一样的一套神经元思考”出来的。作为一个拟合函数,深度学习一定是有输入就有输出的,但是对于输出的结果,如果没有金标准检验,就方便做文章收智商税。《新英格兰》的文章中还提及另一种不可证伪,叫做本身就是一句废话,也就是浅显的道理。比如用人工智能来判断一个高龄且有各种病史的患者有极高的手术风险。临床需求是看哪种诊断或治疗方案更有用,而不是看谁说得废话更多。
医学是讲证据的学科,可靠的证据形成了临床指南,可靠的证据在推动临床指南的发展。
也许现在计算机的进步让更多的数据可以被利用起来来进行综合判断,但是在这些判断标准进入临床指南之前,都是科研探索的性质。《新英格兰》的观点文章中明确的提到了这种行为,这种没有已经探明的医学逻辑支撑,通过堆砌更多维度的数据妄想有所发现的行为,最终会陷于蝴蝶效应带来的困境之中。我国80年代曾有过大批群众激昂热情去攻克”哥德巴赫猜想“,当时的数学家看待这些群众的努力,也许就像现在医学研究领域的科学家在看大数据工程师们。听说全国有几百家做基因检测服务的公司,他们中的很多给投资人讲得故事就是拼命收集数据,数据堆得多了,深度学习自然就会发现规律。“读书百遍,其义自见”吗?科研工作,还是留给那些受过科学训练的人们吧。
上述《新英格兰》观点论文的结束语是,是否人工智能和人类医生谁更聪明的争论在持续升温,但是没有意义。如何让人工智能和人类医生来一起实现任何单一方都无法提供的临床效果,才是关键。
做临床,不是发明创造,是很具体的实际操作,临床指南就是圣经。做人工智能产品就是要在临床指南的范围才有意义,说得庸俗点,才会有商业意义。因为这些产品将优化临床医疗的具体的步骤和环节,无论是降低漏诊,还是帮助医生更快速更准确的作出诊断,都是有价值且有价格的事情。如果非要去证明”哥德巴赫猜想“,很大的目标价值和超小概率的乘积,恐怕也是趋近于零。
在临床指南之内,其实有很多可以实现且值得去做的人工智能项目。以医学图像AI为例,因为医生的肉眼和经验毕竟是有局限性的,所以突破这些局限性,就是临床价值的落点。计算机视觉三大领域: 分类(Classification)、检测(Detection)和分割(Segamentation),不同的临床问题下分别都会有用武之地,同时具体的临床需求也会需要用不同的计算机视觉方法。例如,糖尿病视网膜病变的自动识别:按照国际分级,如果确诊为重度非增生性病变,需要医生能够从大约4000*4000分辨率的眼底照片每个象限中至少能数出20个出血点,还有静脉串珠等其他病灶。这些病灶小到只有几十个像素,那么帮助医生快速的锁定和计数这些微小的目标,检测(Detection)就是最合适的手段,而做分类(Classification)只能够起到核对诊断结果的作用,不能够有效辅助医生做出诊断;而此处做分割(Segamentation)有显得没有太大的必要性。
懂行的读者可能会想起去年Google在美国医学会期刊JAMA(影响因子44.405)上发表的学术成果,对糖尿病视网膜病变的分级就是用的对整张图片的分类Classification,而并非对病灶的检测Detection,没错,结果很好。但是试想一下,当临床指南发生些许变化,比如改为要数出30个出血点时,Google这项成果的所有工作,包括前期十几万张眼底图片的标注,都要完全重来一遍。
使用医学而不是计算机工程的评价体系来衡量人工智能系统是否靠谱。在此需要介绍几个概念:
Sensitivity (敏感度):描述了系统正确的判断阳性的能力,计算方法为,系统正确判断为阳性数量除以所有阳性数量。敏感度越高,说明系统的漏诊率越低。
Specificity(特异度):描述里系统正确的判断阴性的能力,计算方法为,系统正确判断为阴性的数量除以所有阴性数量。特异度越高,说明系统的误报率越低。
我们希望系统能够在漏诊最少的情况下误报也最少,也就是要求高敏感度和高特异度,但是在任何系统,“明察秋毫”和”枉杀千人“总需要找一个平衡点。临床要追求整体的运行效率,牺牲敏感度追求特异度会造成漏诊率提高,致使筛查或检查不达目的;牺牲特异度追求敏感度可能导致医疗资源浪费投入到假阳性的案例中(这是一道GMAT逻辑考题)。
我们再看看计算机工程界常用的评价指标:
Accuracy (准确率):判断正确的样本数与总样本数之间的比例。计算方法为,系统正确判断为阳性与正确判断为阴性的数量之和除以总样本数量。
Precision (精确率):系统判断为阳性的情况中正确的比例。计算方法为,系统正确的判断为阳性的数量除以系统判断为阳性的总数量。
Recall (召回率):等同于敏感度。
聪明的你会发现,准确率Accuracy和精确率Precision严重依赖于样本总数里阳性和阴性的配比,举个极端的案例,设计一个系统,对于所有的输入都报阳性,即敏感度为100%,特异度为0,这就是个没有实际用处的系统,那么此时取100个测试样本中,99个为阳性,1个为阴性,此时计算出的准确率为99%,精确率也是99%。
现实中,做出一个敏感度高特异度不高,或者反之的系统是很容易的,可以轻松的调整测试样本的阳性阴性比例来优化其准确率和精确率值。
不难理解,为什么公关软文中最常出现“准确率超过95%”,“精确率超过98%”,云云。下次再读到“准确率超过95%”的时候,我们可以这么想,准确率95%可能意味着系统蒙答案的时候主要蒙A选项,然后测试样本中的A占绝对多数;那么再读到“精确率超过98%”的时候,我们可以这么想,系统的敏感度可能只有30%,在他能够报出为阳性的时候,绝大部分是对的。
所以,回避了医学常用的评价标准,通过百分数哗众取宠搞新闻效应是比较容易实现的。甚至在一些学术论文和国际医学图像识别的竞赛中,也经常出现只看精确率和召回率,而不出现特异度指标的情况,有些公司还恰恰以这些影响因子0.5分不到的学术论文为荣誉,或者因在这些国际大赛中又将精确度提升了0.12个百分点而骄傲。如果你问我“茴香豆的茴字有几种写法”,我会回答“一万种”。能解决临床需求的AI才是好AI。评价医学人工智能系统是否有用,要同时看其正确的判断阳性的能力和正确的判断阴性的能力,即敏感度和特异度。
在《新英格兰》的文章中,“Bias偏见”的词频很高,是指因为数据产生的偏见,也就是我们常说的过拟合。文中提及传统开发中使用到的数据被精确构建以最小化偏见,但是现在的机器学习的开发方法已经不可避免的放大了偏见。所以评价一个人工智能系统,要衡量他有多偏。看测试样本够不够规模、产生于什么时间、什么地区、以至于民族和种族。专业人士可以通过观察训练样本和测试样本本身,来判断人工智能项目的过拟合风险。如果是过拟合严重的系统,再高的敏感度和特异度指标,其临床价值也要打个问号。虽然偏见不可避免,但是我们还是可以简单的衡量一个系统的过拟合风险的大小:测得多总比测得少要好,测试样本与训练样本数量比值越大越好,人口统计学背景越复杂越好等等,道理浅显,不一一赘述。
《新英格兰》这篇观点文章,用词严谨到近乎刻薄,说法隐晦到让人感叹知识分子骂人不带脏字儿,但是最后还是乐观:深度学习也不断的在一些曾经被认为不可能完成的图像识别任务中屡建战功。所以,还是要乐观,推动深度学习的幻想破灭而进入稳步爬升的光明期 (Slope of Enlightenment)。雷锋网