2020年,医疗AI的第一个大新闻属于谷歌。
1月2日,Google Health联合公司旗下DeepMind、伦敦大学学院、剑桥大学、英国吉尔福德皇家萨里郡医院、初创公司Verily Life Sciences、斯坦福医疗中心、英国皇家马斯登医院等多个机构在《Nature》杂志上发表了一篇论文,介绍了一种新型的深度学习钼靶影像系统。
这个系统的核心亮点是,与之前的模型相比,该模型有效减少了乳腺癌被错误识别或遗漏的情况,将乳腺癌检测的假阳性率降低了5.7%,假阴性率也降低了9.4%,并号称击败了6名全日制的放射科医生。
谷歌经常会在某些领域“超越”医生。
在此之前,2017年,谷歌医疗AI在乳腺癌诊断中表现超过人类专业病理检验师。次年,谷歌发布一款针对晚期乳腺癌的人工智能检测系统,可以在99%的情况下正确区分转移性癌症。
但是,昨天的这条消息热度还没持续48个小时,就有大牛站出来质疑。
深度学习三巨头之一的LeCun首先站了出来。
他纠结的一个点在于,谷歌这篇论文的结果,纽约大学的团队在2019年10月就已经做过了。如果谷歌要发表这篇文章,就应该引用NYU的研究内容。
雷锋网查看了一下LeCun的账号,直到1月3日中午11点半,LeCun还在转发帖子,看来对这件事有着一股深深的执念。
当然,这个事儿错不在谷歌。
DeepMind的负责人Hassabis回复LeCun说,我们引用了这篇论文,LeCun 应该先看清结果再喷。后面LeCun也解释了,这个确实没看到。
不过,围绕这篇论文的争论却没有散去,有学者站出来公开支持LeCun,质疑这篇论文的实际价值。(后期,雷锋网将对纽约大学的这篇论文进行编译和解读)
Hugh Harvey说到,虽然我们要向谷歌表示祝贺,但是不要忘了,去年纽约大学的团队就取得了更好的结果,有更多的数据验证,和更多的放射科医生进行了对比。并且,纽约大学的代码和数据都开源了。
上面的这些话都还算客气,不过Hugh Harvey最后一句可就不留情面了:“只是纽约大学的学者们没有PR团队来引起公众的注意罢了。”
当然,有人反对,也就有人支持。
巴塞罗那大学机器学习和CV领域的教授Gabriel Oliveira就表示,如果我们不能访问数据集或代码,我们应该如何重现结果或验证它?尽管如此,任何在帮助抗击癌症方面取得的进展和付出的努力都是受欢迎的,所以祝贺谷歌这个团队。
2019年,LeCun与Hinton教授以及Bengio教授三人共同获得了2019年图灵奖,将共同拿到100万美元的奖金。
虽然名誉加深,不过LeCun一直以来就是一个批判者,经常会公开发表不同的意见。
在去年ISSCC(国际固态电路会议)学术会议上发言时,这位“敢说、敢怼”的AI大牛就顺便批判了英特尔神经形态计算实验室主任Mike Davies在搞的神经形态计算,后面自然引起了一场“隔空对战”。
不过,作为深度学习领域的领军人物,对于人工智能的未来,LeCun的措辞一向很谨慎,“AI离我们的目标还非常远,还达不到我们想要的效果”。
所以,对于谷歌能够击败击败了6名放射科医生,相信LeCun也会有自己的看法。
准备率99%靠谱吗?
拆台“知名”医疗AI论文的现象一直存在。
雷锋网了解到,2017年12月,吴恩达团队就宣布,利用CNN算法识别肺炎的准确率上超越了人类专业医师。紧接着,阿德莱德大学的放射科在读博士Luke Oakden-Rayner就发表文章,质疑吴恩达团队医学影像数据集的可用性问题。
要知道,当时的ChestX-ray14 已经是最大的开放式胸透照片数据集,包含 14 种疾病的 10 万张前视图 X-ray 图像。
为了证明自己的观点,Luke Oakden-Rayner博士依次对“标签的准确度”、“标签的医学意义”、“标签对于图像分析的重要性”等三个问题进行了论述。
除了数据集,AI如何能够按照人类尤其是医生的思维来得出结论,其实更加重要。斯坦福大学皮肤科的 Novoa 博士也举了一个例子讨论过这个问题:
当皮肤科医生查看一种可能是肿瘤的病变时,他们会借助一把尺子——就是你在小学时用的那种——来准确测量它的大小。皮肤科医生这样做是为了查看病灶。因此,在一组活检图像中,如果图像中有尺子,算法更可能将其判断为恶性肿瘤,因为尺子的存在与病症癌变的可能性相关。
不幸的是,Novoa 强调,该算法不知道为什么这种相关性是有道理的,所以很容易误解为一把随机的尺子是诊断癌症的根据。
而就在上文中,谷歌此前提到的“晚期乳腺癌的人工智能检测系统,可以在99%的情况下正确区分转移性癌症”,也存有疑问。
我们要知道,计算机工程界常用的评价指标有两个:
Accuracy (准确率):判断正确的样本数与总样本数之间的比例。计算方法为,系统正确判断为阳性与正确判断为阴性的数量之和除以总样本数量。
Precision (精确率):系统判断为阳性的情况中正确的比例。计算方法为,系统正确的判断为阳性的数量除以系统判断为阳性的总数量。
Recall (召回率):等同于敏感度。
可以发现,准确率Accuracy和精确率Precision严重依赖于样本总数里阳性和阴性的配比,举个极端的案例,设计一个系统,对于所有的输入都报阳性,即敏感度为100%,特异度为0,这就是个没有实际用处的系统,那么此时取100个测试样本中,99个为阳性,1个为阴性,此时计算出的准确率为99%,精确率也是99%。
因此,现实中,做出一个敏感度高特异度不高,或者反之的系统是很容易的,可以轻松的调整测试样本的阳性阴性比例来优化其准确率和精确率值。
医学是讲证据的学科,如何证明一项临床成果的先进性,实用性和稳定性,需要工程团队给出充分的理由。就“击败医生”这件事而言,在目前看来还很遥远。“窥一斑而见全豹”这样的方式,并不适用于以“循证”为特征的医学领域。
而数据集、思维方式、评价指标,这些都是医疗AI绕不开的问题。
所以,以后对于类似的“准确率超过99%”、“超过医生水平”的话术,我们看看就好。毕竟,AI想要达到或者超过医生的水平,还有很多事情要做。