在 2014 年的时候, MIT CSAIL 教授 Regina Barzilay 依然带领学生在 ACL、EMNLP 上发布了六篇论文,而且在接下来的几年笔耕不辍,高产连连。
你或许要问雷锋网AI科技评论:为何用“依然”这个词?
因为在这一年,Barzilay 被诊断患有乳腺癌。
Regina Barzilay 专注 NLP 领域,在 2005 年曾被评选为 MIT TR 35 之一。在患病之后,Brazilay 意识到好的数据非常宝贵。「你非常需要数据,非常需要信息。」Barzilay 表示,「我是否要采用这种药物?这个治疗方案对我来说是最好的选择吗?复发率会是多高?如果没有可靠的数据支持,那么你的治疗方案只能依赖全凭运气的猜测。」
兴许是自己的切身体会让 Barzilay 感触良多,在鬼门关走过一遭后,Barzilay 在回到学校后就着手开展了机器学习应用于医学领域的研究,并在 2016 年发布了《利用机器学习分析乳腺癌报告》的论文。
从诊断到治疗,从预防到检测,Barzilay 想做的并不是颠覆现有的临床研究,只是想利用机器学习帮助医生和患者从中受益。医生会通过病人的信息手工映射到结构化的数据上,并确定病症的相关性。这种原始的方法可以与计算机科学联系起来,并利用后者完成人类医生一直在做的事情。
但是,诊断中存在的延误与失误对科学进步而言实在是一大讽刺和阻碍。雷锋网根据美国肿瘤协会提供的一项数据了解到,美国每年有 170 万人诊断患有癌症,但只有 3% 参加了临床试验。而目前的研究实践数据只能完全依赖这 3% 的患者。因此,Barzilay 想做的,就是从剩下的 97% 患者中获取更多的信息。
Barzilay 获得了和不少医院名师的合作,比如麻省医院(MGH)的乳腺放射科主任 Taghian Alphonse、MGH 的 Avon Comprehensive Barzilayreast Evaluation Center 的 Kevin Hughes、还有乳腺图像处理部的 Constance Lehman 等。他们为 Barzilay 的研究提供宝贵的数据支持。
而在 MIT Stata 中心,Barzilay 表示目前的项目资金其实足够给前来工作的学生们支付酬劳,但就像 Barzilay 一样,学生们都是本着一颗热忱的心在无偿劳动。「在 MIT 这么长时间,我从来没有见过学生对研究抱着如此崇高的情怀,而且还自愿奉献自己的时间。」
Barzilay 主要通过 NLP 结合患者的诊断报告,对数据进行检索、总结及文本的理解。通过 NLP 工具,Barzilay 与学生们从 10.8 万份癌症患者的报告中提取了相关的临床信息,而所整理的数据集准确度达到 98%。
她的工作核心是机器学习,或者说,让计算机从数据中习得算法与事物间的内在联系。就像亚马逊、Netflix 那样,系统能够跟踪并预测你的喜好,并将这些「小结论」综合为大数据。
下一步,Barzilay 准备将治疗结果加进诊断报告中。在另一个研究中,Barzilay 开发了一个数据集,Hughes 团队能够利用这个数据集监控非典型疾病的发展,也就是说,医生可以判断哪些病人在未来有高风险罹患癌症的可能性。
机器在预测上有着天生的优势——但 Barzilay 却不满足于此,她与电子工程及计算机科学学院的教授 Tommi Jaakkola 及学生 Tao Lei 尝试揭开机器学习的黑箱,在文本数据方面提出了一种新的训练神经网络的方法,让机器不仅可以提供预测与分类,还能为人类的决策提供理论的决策依据。这一研究目前已经尝试应用于数千份乳腺活检的病理报告,通过文本为病理学家提供诊断依据。
此外,Barzilay 也在研究如何让这些新工具更好地做出预测。乳腺的 X 光片信息量非常大,人类在短时间内很难全部看清,而与之不同的是,机器能够观察到最为细微的变化,而且在低像素的 X 光中,它的表现也同样不俗。Barzilay 与 Lehman 和 Nicolas Locascio 进行合作,将深度学习用于分析乳腺 X 光片。
他们的小目标是希望帮助放射科医生分析一些常用的诊断指标,大目标则是希望能在 X 光片都看不出端倪时,能够先给病人敲响警钟,或判断哪些病人的有复发的可能性。这实际上也就是「预测」了——在 X 光还没有显示问题时,机器就已经「看透」了一切。
但要实现终极目标,则需要让计算机应用于健康领域的各个方面。目前这一方向已经有了进展:Taghian 与研究生 Julian Straub 带领六个本科生目前开发了一个采用机器学习检测淋巴瘤的设备。这种疾病早期症状非常隐蔽,如果没有及时发现,后果将不堪设想。不过由于造价昂贵,相关的检测设备在美国非常稀缺。学生们正在尝试开发出造价更加便宜的版本,并希望数月内能在 MGH 里进行测试。
Barzilay 对于目前机器学习做出的贡献感到非常欣慰,她认为这在未来将会对医疗领域产生巨大变革,「现在依然任重道远,我们的征程才刚刚开始。」雷锋网也将持续关注研究的后续进展。