癌症早筛,普遍被认为是一个潜在的千亿级产业。
但胰腺癌,却是例外。
从商业角度看,这是一个长期“被否定”的选项。因为比起肺癌、结直肠癌、胃癌、肝癌等,胰腺癌并不属于高发性癌种,但擅长伪装、先天耐药、手术切除率只有两到三成。最致命、最难发现、扩散最快,“癌王”,成了胰腺癌的公认的代号。
要蹚胰腺癌这条路子,基本上可以预判:钱少事难,要么情怀,要么诈骗。
这也正是矛盾所在。在临床医生看来,胰腺癌作为癌王是“悲哀”的。无论是国内还是国外的临床指南,都不推荐胰腺肿瘤筛查,因为迄今为止,没有一种方法适合所有人,而且保证筛查结果可靠。
因此,超过80%确诊患者,一经发现即晚期,存活率在1年左右。但是根据美国约翰霍普金斯医院最近发表的重要临床工作,早期或者偶然发现的胰腺癌患者的生存率可以很高,比如9.8年。
胰腺癌是一次有组织的、秘密的人类攻击,从癌前病变进展到癌症1期2期可能10年,但是越到最后是突然间指数级增长。也就是说,上帝并没有宣判死刑,但几乎没有人会逃过诅咒。
五年前,一项最有望扭转这一困境的技术,CancerSEEK(基于ctDNA的检测方法),由全球癌症遗传学大牛Bert Vogelstein教授和团队提出,成果发表于Science期刊,曾一度解决了包含胰腺癌在内的多癌筛查问题,覆盖了大部分致命癌症,引发全美投资热潮以十亿美元计数。
时至今日,这一技术离转化为产品还遥遥无期,致命弱点就在于这一技术并不通用。
如果这场声势浩大且令人耳目一新的技术让人有过短暂的着迷,那么它真正的价值在于激起人类的挑战欲望。
阿里达摩院便是其中之一。
面对多癌筛查这一宏大且迷人的命题,达摩院毅然选择了另一条看似更易、实则更难的路径——AI。
故事的开始,源于2018年的一次不幸。
来自上海市胰腺疾病研究所的曹凯医生,在某三甲医院临床轮转的时候,其导师A教授后来不幸确诊胰腺癌,发现时已是晚期,最终因医治无效在2018年逝世。
痛惜之余,曹医生在翻看A教授的病历数据时发现,其在确诊胰腺癌的十个月前曾在医院体检时拍过一次胸部平扫CT,仔细察看,胰腺部分有一丝病变痕迹。
这让曹医生萌生一种大胆的想法:假若所有胰腺癌患者都能在确诊前的十个月甚至更早,通过体检提前发现癌症病灶,并进行根治性的手术切除,将获得更好的生存质量。
Bert Vogelstein教授也持有类似的观点,任何一个穷凶极恶的晚期肿瘤也都是从癌前病变到1期2期一步一步进化而来。
这件事的难度相当于重新开辟一块“新大陆”。
由于平扫CT图像的对比度极低,多用于肺炎、肺结节等日常疾病诊断,医生也没有在平扫CT上受过癌症诊断的训练经验。而当年AlphaFold的面世,让曹医生意识到,通过引入人工智能的能力,是有可能识别CT上那些肉眼难以察觉的病灶信息,从而攻破胰腺癌的早筛难题,这也成为他此后的临床科研重点。
此去经年,曹医生一直在寻找合适的技术合作方。直至几年前,他与达摩院接触,发现这个研究部门很不一样,既有充足的AI技术储备,同时也有着丰富的临床实践经验。
达摩院医疗AI团队长期注重以技术解决临床的真实需求,与一线医生保持紧密的科研联动,了解到曹医生的科研方向与其导师的故事,也敏锐注意到,假如AI能把最难识别的胰腺癌都搞定,这将极大推动这一领域的前进。
双方一拍即合,随即联同全球10多家顶尖机构发起研究课题,正式向“平扫CT+AI”的大规模胰腺癌早期筛查发起挑战。
其中包括:上海市胰腺疾病研究所、浙江大学医学院附属第一医院、中国医科大学附属盛京医院、复旦大学附属肿瘤医院、上海交通大学医学院附属新华医院、约翰霍普金斯大学、布拉格查理大学第一附属医院、哈佛大学等。
这显然是一支堪称豪华的研究团队。这种阵容的组合搭配,或许才是人类与“癌症之王”在这场旷日持久的斗争中胜出的底气所在。
11月21日,Nature Medicine正式刊发这项研究成果,一个名为“PANDA”(PAncreatic cancer Detection with AI)的胰腺癌早筛模型正式亮相。
PANDA的发布意义在于,证实了在平扫CT上使用AI进行胰腺癌筛查的可行性、而且是中国放射影像领域的科研成果首次刊登Nature Medicine。
论文题目:基于非增强CT和深度学习的大规模胰腺癌检测
达摩院是怎么做胰腺癌早筛的?普通人什么时候能用上?以及一个直击灵魂的拷问:这真的不是企业AI研究院做着玩?
论文成果一出,围绕着AI能否用于胰腺癌筛查的争论也刚刚开始。
近日雷峰网对话达摩院医疗AI团队负责人、IEEE Fellow吕乐,他回复到:Nature Medicine在审稿时也是这样的疑问。首先要看你的training code,然后还要三位资深审稿人独立审稿,其中有一位美国医生在审稿里面问了我们58个问题,说明他这个大临床专科医生(从他提出的的问题的专业性,广度和深入程度上看,肯定是胰腺癌这方面的大专家)多多少少是有点不太相信的。
“因为我们的最大创新之处在于,首次证实了在平扫CT上使用AI进行胰腺癌筛查的可行性,并达到了之前认为可能达不到的高性能。”
直白点说,要把“大规模胰腺癌早筛”这个问题拆解开,最终会发现,这不仅是个技术问题,也是一个是经济问题。
对于任何一个关乎临床的服务,大规模临床数据是技术的最有力背书,再进一步转化为产品,则需要配合现有医疗条件降低落地成本。
有着临床医学背景,曾在美国爱荷华大学和国立卫生研究院(NIH)临床中心从事疾病和人工智能研究的张灵,是达摩院本次胰腺癌早筛工作的项目负责人。
他补充到:“在我们之前,大家不知道平扫CT可以用来检查癌症。过去对肿瘤的检测和诊断,主要使用增强CT,需要给病人注射或者口服造影剂,并不适合大规模筛查使用。”
相比较而言,平扫CT普遍被百姓所接受,在体检和门诊等场景中更为常见,不增加额外费用、检查、辐射等。因此,“让AI配合影像,而非影像配合AI”,成为达摩院最先确立的准则。
吕乐、张灵
在实际应用中,敏感性(即不易漏诊)和特异性(即不易误诊)是评价医学影像类AI筛查工具的两大标准,但往往需要在一定程度上进行权衡。提高敏感性可能会增加误诊的风险,而提高特异性可能会增加漏诊的风险。
这里分享一组真实的数据和案例:
在历时一年多的开发与验证中,通过对在20530名真实世界连续病例的多场景验证,达摩院训练的这款胰腺癌早筛工具达到了92.9%的敏感性、99.9%的特异性,发现了31例临床漏诊病变,有2例早期胰腺癌病患已完成手术治愈。
其中1例是患者每年都会定期去某三甲医院体检中心进行体检,并安排胸部CT检查,在今年的体检并没有发现任何异常。在其体检后的第7个月,该患者的CT图像数据被纳入到该研究的回顾性临床验证,被检出“有95%概率患有胰腺神经内分泌肿瘤(PNET)”。
在经过多学科会诊后,院方决定召回患者进行磁共振增强检查并成功手术,后续结合术后病理报告,这名患者最终确认为属于早期PNET(G1级别,1.5cm)。接下来半年的随访显示,这位患者的肿瘤并没有复发或转移。
这是实实在在的早发现、早治疗的临床案例。吕乐表示,“癌症如果治疗得当,在指数生长之前抓住它,这个人就有治了,就是会很好治。在美国,一半的医疗费用是患者死前的三个礼拜花掉的。”
这项研究已在阿里云上开放API调用接口,以便医生体验和使用。目前已在医院、体检等场景被调用超过50万次,本地化部署的模型每次检测耗时约40秒,每检测1000次只出现一次假阳性,随着迭代未来还有提升空间。
针对这次的研究成果,Nature Medicine罕见地刊发评论文章,称“基于医疗影像AI的癌症筛查即将进入黄金时代”。
论文共同一作、上海市胰腺疾病研究所的曹凯医生认为,“PANDA将拓宽业内对胰腺癌筛查的认知边界,推动临床治疗的发展。”
另一位共同一作、复旦大学附属肿瘤医院放射诊断科的汤伟医生表示,“PANDA提出了一种有潜力的大规模胰腺癌筛查方法,在提升检出率的同时,又不会给病人带来额外的辐射与经济负担。”
上述观点,反映了当下临床医学的一大趋势:在医疗数据与人工智能的交织碰撞下,医生面对各种疾病时的治疗思路和就诊流程都会发生直接变化。
张灵提到,医生是否愿意使用一个AI工具,评价标准非常直观:临床价值、产品力。
前者是指,这个AI产品真正创造了不可或缺的临床价值,给病人解决了性命攸关的生存问题。所以“做什么”是非常关键的;
后者是指,好用、易用,比如一个医学影像的AI工具需要同时保证特异性、敏感性、精度等,还要与临床流程打通集成,无需切换工作流。所以“怎么做”也非常关键的。
这一观点也得到了吕乐的认同,他举了一个用“普通X光+AI”来检测骨质疏松的例子。
通常来说,骨质疏松的诊断需要借助“双能X光”进行骨密度检测。理想状况下,中国每百万人得配12个双能X光机,但是现在中国每百万人仅有0.2个。这时候用“普通X光+AI诊断”,反而是一种更具普及性的选项。
“好的X光图像通常具有3000*4000的分辨率和12位色深,但现在电脑屏幕的分辨率通常是1920x1080和8位色深,这为医生带来了细节上的困扰,需要调整参数以获得准确诊断。”
相比之下,AI的优点在于,能够更准确地处理和分析图像中的像素,而且并不需要额外的成本,因为病人的数据已经在医院的数据库中。AI可以快速处理数据,找到那些需要特定接受进一步骨质疏松筛查的病人。
进一步来说,临床无小事,评估一款医疗AI产品的好坏,不能过于追求技术上的所谓先进性,因为很多时候“高级”和“好用”并不等价。
就拿骨质疏松的模型来说,很多内分泌科医生对AI的理解很深,相信AI来检测骨密度会做得很好,所以寄希望于AI在这个子任务(Narrow Task)上取得超人的效果,而不是像LLM那样可以做许多其他任务的“通用模型”。
作为真正的AI用户--医生感知很重要,直接决定了医院愿不愿意为工具付费。因为绝大多数医生不会关心企业采用的究竟是什么模型和算法,他们只关注你最终交付的是什么样的成品。
回到本次胰腺癌的主题上,显然单纯的公开数据集无法训练出一款好用的AI模型,前提还得是真实的患者数据、专业医生数据标注、以及到医院场景里亲自跑上几遍。
张灵介绍了PANDA模型的训练策略,着重指出三点:
1、依托多家合作的三甲医院,我们构建了迄今最大的胰腺肿瘤CT多中心数据集,其中训练集3000例,但这样的规模对深度学习不算大,设计怎样的算法能最大化精度且保证良好的泛化性?我们尝试过目标检测、语义分割、图像分类、影像组学结合机器学习、联合分割分类等技术路线,最终是级联的联合深度分割分类模型最佳。
2、训练AI筛查模型需要医生手工标注大量肿瘤,而平扫CT图像对比度极低,医生几乎无法标注,我们请医生先在增强CT上勾画,创新性地采用适用于腹部CT图像配准的算法,把增强CT上的勾画迁移到平扫CT上,并以病理金标准确认的肿瘤类型为标签监督模型的学习,从而使PANDA能突破人类医生在平扫CT上检测诊断胰腺癌的天花板。
3、为验证PANDA的临床表现,我们将模型部署至合作医院的IT基础设施与工作流中,进行了2轮大规模的在真实世界多场景(体检、门诊、急诊、住院)连续病人群体的回顾性临床试验。最终达成99.9%特异性,即每1000例测试出现1次假阳性。换句话说,这千分之一的“不完美”就交给医生了。
实践证明,在PANDA检测出胰腺癌的病人中,56%-74%的病人是真胰腺癌,其余的是医生比较容易排除掉的病变(脂肪浸润,胃肠内容物等)。
达摩院工程师进入合作医院,实地调试部署PANDA
可以看出,与过往的医疗影像AI工具相比,达摩院在打造这款胰腺癌早筛的专用工具时,“数据价值”被不断放大。
吕乐表达了一个观点:为什么OpenAI很强大,发挥出LLM的智慧,因为模型性能最终取决于数据的质量和数量。如果数据比OpenAI的差得很远,一定很难在性能上超越它,因为所有模型本质是一个统计模型。有时候算法改进带来的性能提升,远比不上高质量数据带来的效果更明显。
随后他开玩笑地提到,这或许可以概括为“data curation AI”。尤其是医学领域,大家应该踏踏实实地与临床工作相结合,认识到这是未来发展的趋势。
一个强大、好用且贴合临床实际需求的AI工具,正逐步成型。
吕乐表示,“这次胰腺癌的成果只是达摩院医疗AI多癌筛查的众多研究之一,下一步是推动实现‘8+5’平扫CT一扫多查,覆盖13种致命癌症、慢性病,最终目标是用一个平扫CT检查,通过AI就能够帮病人解决多种疾病的智能筛查、辅助诊断与定量分析。”
“为什么这件事一定是达摩院来做?”
达摩院本身的定位不是事业部,也不是传统的AI中台,它既摆脱了这两种类型的俗套,又借鉴了它们,因此成为一种奇特的存在,以解决社会问题为导向。
“21世纪的公司,只有解决社会问题才能活下来,不解决问题活不下来的。”2017年达摩院成立初期,马云称。
达摩院重点投入AI for Science,布局医疗、农业、电力等领域,聚焦中长期的科学技术研究以解决社会问题。2020年新冠疫情初期,达摩院紧急研发出“CT影像新冠肺炎AI辅助诊断系统”,曾让阿里达摩院医疗AI团队一战成名,被科技部评为科技抗疫先进集体。
多年下来,达摩院积累了丰富的计算机视觉、深度学习等AI技术,并与医学界、工业界保持紧密合作,将大量前沿技术转化用于临床实践。
总体来说,达摩院都是用“AI来解决那些尚未得到解决、而病人又真切需要的临床需求。”2021年8月起,吕乐担任阿里达摩院医疗AI团队负责人,便定下这条医疗技术第一性原则。
在加入达摩院之前,吕乐已是业界富有盛名的医学影像科学家;加入达摩院后,基于医学影像的癌症筛查和研究进展频出。
2022年10月,达摩院初步验证AI与平扫CT结合的技术可行,有望在体检中查早期食管癌,敏感性特异性超过专家医生水平,相关论文发表在MICCAI 2022。同月,基于深度学习对头颈癌症42个危及器官进行高效精准自动勾划,可有效减少放射治疗的并发症,相关论文登上国际医学期刊Nature Communications。
2023年6月,聚焦于视觉领域著名的OOD(分布外检测)难题,提出了全新的医学图像语义分割框架,能够让AI更准确地识别肿瘤中的疑难罕见案例,目前已在胰腺肿瘤和肝脏肿瘤上获得验证,被计算机视觉国际顶会CVPR 2023评为Highlight论文。同月,基于增强CT的胰腺肿瘤鉴别诊断,发表在医学图像处理顶会IPMI 2023。
2023年8月,发布多癌影像分析通用模型CancerUniT,借助增强CT,可辅助诊断八种主流癌症,该模型的论文成果已被计算机视觉顶会ICCV 2023收录。同月,发布第一个可以分割全身143个器官的连续深度学习框架,该模型的论文成果已被计算机视觉顶会ICCV2023接受。
不久后,达摩院免费开放100件AI专利许可,其中有3件是专门针对癌症的精准治疗,和解决关键的医疗图像配准问题(后来在10月份MICCAI 2023 Learn2Reg竞赛上,达摩院相关医疗图像配准技术以比较明显的优势,获得所有两个赛道的冠军)。
2023年10月,基于CT图像的肝脏肿瘤筛查与诊断、胃癌筛查、肺结节自动检测及良恶性鉴别、胰腺癌预后等几项工作也在MICCAI 2023发表。
2023年11月,达摩院联合全球10多家顶尖研究机构首次提出以“平扫CT+AI”进行大规模的胰腺癌早期筛查,发布胰腺癌早期检测模型PANDA,相关论文成果登上了国际医学顶刊Nature Medicine。
这些标志性成果将达摩院医疗AI与精准医疗紧密联系在一起,也是AI for Science的生动范例。
在吕乐的设想中,未来AI不仅可以辅助医生进行肺结节、癌症等脏器疾病筛查,同时进行心脏病CVD事件十年定量风险打分,腰椎、盆骨的骨骼疾病筛查,从而实现多个检查的同时进行。
“从脖子到骨盆的躯干位置,都可以通过平扫CT+AI输出多个筛查报告,医生结合专业判断再给出最终的诊断总结。”
吕乐表示,云端部署将是医疗AI最好的服务形态,所见即所得,省去很多繁琐的步骤,模型能够实现快速的迭代、部署和应用,为更多病人提供帮助。
“我们不少模型已在阿里云上开放API调用接口,以便我们的合作伙伴,医生与医疗机构使用,最近每天为大概8万人次的病人提供智能化医疗服务。”
透过医疗AI,达摩院找到了前沿技术跟社会问题完美契合的平衡。至于要回应马云“它要活得比阿里更久”的期许,达摩院显然已经走上了正轨。
本文作者吴彤长期关注医疗科技领域,欢迎添加微信互通有无:icedaguniang。
雷峰网(公众号:雷峰网)