作为药物发现阶段的研究核心,先导结构的发现和优化往往需要花费数年时间,投入数亿美元,长期被视为药物研发的关键技术瓶颈。
从20世纪70年代以来,计算机辅助药物设计(CADD)作为一个日趋完善的药物发现手段,主要包括虚拟筛选和药物从头设计两种策略,曾极大提升新药设计和开发的效率。
“我们即将迎来生物医学大爆发的时刻,但这一成果的取得,不仅取决于生物学家与医学家的努力,甚至更大程度上取决于数学、物理学、化学、计算机技术等的发展以及与生物医学的结合。”
“随着AI技术的成熟,蛋白质、基因组学数据的积累,AI制药平台化势必成为医药行业的一股革命性力量,从根本上改变传统药物设计试错流程,未来AI大模型技术又将引发新的期待。”
近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《「人机协同」模式下的新药研发》线上圆桌论坛落幕,五位具有投资、企业、药物实验、AI制药背景的专家表达出这样的愿景。
本次论坛,由浙江大学药学院教授谢昌谕主持,北京大学药学院研究员刘振明、腾讯医疗健康AIDD技术负责人刘伟、浙江工业大学智能制药研究院院长段宏亮、清华大学智能产业研究院战略发展与合作部主任张煜参与讨论。
在上篇中,他们共同辨析了人机协同模式下的药物研发历程、近几年AI制药领域的算法和模型突破、以及与传统药物研发手段相比AIDD的优劣性。
在下篇中,则探讨了我国创新药研发的痛点、AI制药的数据之困,以及新一轮AI浪潮下药物研发的可能性。近期AI大模型爆火,欢迎添加作者微信(微信号:icedaguniang),互通有无。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live作为雷峰网(公众号:雷峰网)旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
以下是主题论坛的现场内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理。
谢昌谕:人机协同模式下的新药研发大概经历了2-3个阶段。
第一阶段属于计算机辅助药物设计,也叫做Computer aided drug design(CADD),可以追溯到20世纪70年代。它是通过模拟和计算受体与配体的相互作用,进行先导化合物的优化与设计,应用场景有分子对接、虚拟筛选、自由能对接等。
所以这个阶段基本上还是使用基于一些规则或统计方法,筛选已知的化合物库,其中并没有太多人机交互,更多是人来决定整个计算流程并执行,一步一步筛选药物直到找到潜先导化合物。
值得一提的是,90年代前,中国药物分子设计领域主要借鉴欧美的方法与软件,后来经过863计划、973计划等推动,进入本世纪后涌现出不少自研的CADD软件,诸如AlloDriver、Corrsite、SCORE、PharmMapper、DL-AOT等。
第二阶段是用机器学习(ML)来做QSAR(Quantitative structure-activity relationship,定量构效关系 ),指使用数学模型来描述分子结构和分子的某种生物活性之间的关系,1980年代以来,3D-QSAR逐渐取代了2D-QSAR的地位,但机器学习用于新药研发是90年代后期以来。
机器学习的扩展是深度学习(DL),后者巅峰时期可以追溯至2014年,最近十年来随着可用化合物的活性和生物医学数据量显著增加,应用于药物发现的DL研究层出不穷。
无论是ML还是DL,它们更多基于数据驱动,如果将筛选出来的分子配合湿实验的验证反馈,模型迭代速度更快,准确度也会更高。
实际上,这时候就产生了一定的人机互动。
第三阶段或许可以视为如今AI大模型/GPT下的新药研发。
现在我们看到AI大模型带来的核心能力是In Context Learning,它的翻译有好几种--上下文学习、情景学习、提示学习,本质就是在实时训练中学习。
这一阶段的人机互动也更加明显,也这可能是大家期待的一种药物研发模式。尽管现在还处于萌芽阶段,但我们在很多arXiv预印版论文上看到,已经有人积极探索如何把GPT等大型语言模型技术用到药物研发以及相关的化学研究的环节当中,比如 Andrew White 教授提出的 ChemCrow 工具 (arXiv:2304.05376)和arXiv:2305.18090 )等等。
刘振明:因为我本身在药学院,我觉得“新药研发”这个概念有点大,希望更多是围绕自己比较熟悉的“药物发现”做阐述。
大模型出现之前,前前后后经历了三个阶段,刚才谢老师已经讲得很全面了,我做下补充。
第一阶段,CADD。
当时计算机技术刚刚开始在化学和生物学领域中得到应用。随着计算机性能和软件算法不断提高,CADD在药物研究和开发中的应用越来越广泛,比如动力学模拟模拟、计算和预测药物与受体生物大分子之间的结合,设计和优化先导化合物的方法等等。
后来CADD可以根据药物分子的结构,利用计算机辅助技术进行结构优化和模拟,预测药物的生物活性、代谢途径、毒副作用等。
第二阶段,AIDD。
到了2015-2017年,随着神经网络深度模型的发展,有了另一个名字“AIDD”(AI辅助药物设计)。很多人针对有限的数据、有限的目标去做训练,发了不少文章。但圈内人认为广义的CADD是包含AIDD的,AI也需要基于计算机去执行。当然狭义上讲,CADD本质上是计算化学,AI的本质是通过数据去提取和学习,所以只要能产生标准化数据的地方就可以用AIDD。
第三,大模型时代。
这一阶段正在发展中,人机交互的特性更明显。可能除了药学家,除了专门做计算化学的人,很多人都感觉做药物的门槛变低了。即便不懂那么多的药学知识,但可以通过不断的交互也能“做药”。这种交互模式带来的巨大的应用场景最让大家兴奋,而且这种“社交性”的人机协作,让它比CADD和AIDD看起来更亲切。
刘伟:我从工作实践中也提一些我的看法。人机协同这个提法我觉得非常好,强调了“协同”二字。
因为我们在过去几年中有个发现,或者是业内一致看法:新药研发不能只靠人来做实验,同时也不能完全依赖于计算机来算,或者AI算法去找规律,需要人和AI相互协作。
至于发展阶段,大的发展阶段刚才两位老师都提到了,就是从传统的计算机辅助药物设计(CADD),到基于统计学的QSAR模型,再到后来的深度学习。
深度学习阶段也分好几个小阶段。最初是图深度学习(Graph Deep Learning) ,顾名思义就是把各种药物分子看作一个个graph,从图结构的角度来对数据建模,研究其属性和功能关系。
但这一方法也存在一些严重缺陷:高度的数据依赖性、over smoothing等问题。
随后Transformer模型流行开来,很多药物AI算法研究也从图迁移到Transformer。当下的GPT系列模型,正是基于Transformer架构的大规模预训练语言模型,通过在海量的文本数据上进行无监督学习,学习到文本的通用表示和生成能力,然后在不同的下游任务上进行微调。现在有研究证明不太需要微调,也可以用提示学习的方法提高垂类能力。
基于统计学的传统QSAR方法的优势也很明显,有相对好的可解释性,结构也比较简单,相对于深度学习类的方法鲁棒性更好,不容易过拟合。但通常它的上限比深度学习模型低,比如很多领域的SOTA还是深度学习做出来的。
所以在腾讯药物研发工作中,既保留了传统的QSAR类方法,又重点投入了Transformer模型,希望保证比较好的效果的前提下,也能够获得非常好的可解释性。因为两者是相辅相成的,不是简单的对立关系,两者配合才能发挥最大功效。
举个例子,我们基于腾讯在算法、算力上的能力,将AI与物理、化学做了结合,这是团队近年来新生长出来的能力。
我们认为,AI只靠数据驱动是不够的、缺乏可解释性,做出来的模型有时也会因为数据稀疏、分布漂移产生一些问题。如果能够将物理、化学知识有效地输入到AI算法模型中,模型能够非常好地反映在化学、物理等底层的特征和规律,比如可以学习量子化学中的波函数、原子受力分析等。而且这种AI模型不仅过拟合风险更低,实际应用中也有非常好的可解释性,这也是我们最近几年重点发展的能力。
这套技术栈一直在药物分子、有机化学小分子体系上做训练,直到2022年底,我们用这套技术栈参加了Open Catalyst Challenge竞赛(由Meta AI研究院和CMU联合发起),获得第一名,证明这个思路是可行的。
段宏亮:我是药物化学出身,十几年来都是从事新药开发工作,和实验打交道更多。后来到了AI时代,我开始做一些AI和制药的融合工作。刚才几位老师已经把新药研发的发展阶段说的很清晰了,都提到CADD到QSAR的转变,我就从实验视角做一些补充。
实际上,QSAR已经有点像现在的AI制药了,都是数据驱动模型做活性预测,但QSAR的数据量相对较小,只需要几十个、几百个分子,但如今的AI大模型动辄千亿参数,两者对数据的需求明显不在同一层级。
从我自身的经历来看,AI是否真的帮到新药研发,不是说仅仅跑一些标准数据集、提升几个点的准确率、是否使用最新模型做一些深度学习的任务。我们更关心的是,这些方法是否真的有助于药物化学家和药学家的药物研发项目进展。
所以圈内提出干湿实验结合的观点,希望实验室里产出更多的实时数据,进一步迭代训练模型;以及采用一些强化学习、小样本学习,尽量弥补数据量不足的缺点。
如今非常多的科研人员倡导借力AI研发药物,把数据看得极为重要,很大一部分原因是2020年底,AI程序AlphaFold2(DeepMind研发的深度神经网络方法)在蛋白质结构预测大赛CASP14中,取得了几乎媲美人工实验的解析结果。这一现象级成就,迅速让AI制药进入到一个全新的发展阶段。
应该说,在DeepMind把蛋白质结构预测任务做出来之前,整个新药研发领域还停留在比较常规乏味的道路上。
但蛋白质结构预测这个问题被大部分解决了之后,很多人突然发现了新大陆,原来蛋白质结构这种非常玄妙的东西,几乎可以通过计算的方式解决掉,与冷冻电镜解析结果相媲美。
所以这短短两年时间,几乎是产生了一个全新的研究领域--AIDD(AI Drug Discovery & Design),大量的药物学家,计算机AI人才进入这一领域。
大家自然认为,AI和大数据驱动下,跑出first in class新药似乎是毋庸置疑的。这两年时间里,我们看到了大量的非常可喜的成就,尤其在大分子药物、多肽药物、合成生物学等等跟蛋白结构相关的一些领域,无一例外呈现出全新发展态势。
最关键的是,AlphaFold2的出现一定程度上解决了以前AI制药中比较困惑的问题:数据问题。
正是由于结构生物学家们几十年来采用冷冻电镜等湿实验方式获得了十几万的蛋白质结构数据,使得训练我们的深度学习AI模型成为了可能,并由AI从业人员在计算机上面验证了这种可以同实验学科相媲美的可能性。
AI技术对新药研发的的帮助,理论上是全流程的帮助。从靶点发现到新药上市,每个阶段都能看得到AI制药学者,或者是一些企业的介入,其中不乏在一些环节做得非常好。
比如晶型预测是药物研发长流程中非常小的一个环节,有的公司就采用计算的方式将这个问题解决得非常好,它的计算结果跟实验结果是相匹配的,得到了国外大型制药公司的认可。
可见AI技术在某些药物研发环节上的用处非常大。但这并不代表目前AI技术就能带来药物研发全流程、全系统的赋能,它可能在某些环节方面会率先突破,进而以点带面扩展开来。
跟传统的药物研发相比,AI制药的优势更多是效率、成本的提升,以及触及一些人类药物研发工作者难以企及的新领域。
比如我们通过一些计算机模拟技术看到药物分子内部的微观世界。如果没有人机协同,我们永远不可能知道微观世界中一个药物分子是一种怎样的构象,它跟蛋白靶点如何作用。通过计算机,我们可以相对准确地捕捉到原子和原子之间的相互作用力,从而更好地改造药物开发的技术。
另外,对于数据量非常庞大的一些药物开发场景,比如蛋白质组学、基因组学等,数据量动不动是几十个T,这种级别的数据量对于人类来说基本上是无能为力的,无法用肉眼来分析和总结规律。计算机就可以把所有的数据中最核心的规律总结出来展现给药学家,大大提高效率。
张煜:我们主要关注大分子药物研发。尤其是这两年我们也能够感受到,AlphaFold2确实让整个蛋白质结构解析领域发生了颠覆性的变化。由于蛋白质是几乎所有药物的主要靶点,了解蛋白质结构,是解决如何通过特定方式干预疾病表征的关键。
随着AlphaFold2开源,一些生物技术公司现在正在使用它来协助开发药物,尤其是一些原本致力于大分子药物的研究更是加速进行。
这也说明了AI技术的一大好处--降低了从业门槛。比如说冷冻电镜设备,不是每个大学或机构都有这样的财力或物力,但AlphaFold2提供了强大的蛋白质预测和分析工具,让很多从业者几乎无条件地投入到这波创新浪潮中。
相对来讲,大分子方面规律性更强,蛋白质有“序列决定结构,结构决定功能”的链路,反过来以后发现我们需要这样一个功能,能不能把这个结构拿到,同时我们知道它是什么样的序列生成出来的,也就是蛋白质设计。
所以,AI展现出极强的理解和生成能力, 使得它在在大分子方面的效果非常明显。尤其是如今ChatGPT验证了参数增长、训练数据量增大,对AI模型的重要意义,AI大模型的确能让大分子制药领域取得突破性效果。
但小分子有自己的化学性质,以及数据是制约小分子药物设计最大的瓶颈,不仅可靠数据非常少,还存在指标不统一、敏感数据难获取等问题。或许这一点,让AI大模型在小分子制药领域的效果没那么显著。
刘伟:AI对新药的诸多流程都有帮助。
这几年,我们把小分子和大分子都做了一遍。在腾讯的药物AI平台上,小分子这块,从常见的ADMET评估,到苗头化合物发现(hit),再到lead优化都有相应的AI算法工具支持。
在大分子这块,最近两年我们陆续开发了抗体结构预测、活性预测、人源化等技术模块。几乎覆盖了大分子和小分子的整个临床前研究环节。
相对传统的药物研发模式优势有哪些?
刚才两位老师也提到了,优势是更快的速度,用更少的钱做更少的实验。在这一块我们体会也特别深,迭代速度快非常关键。
比如我们与某个药企合作分析某系列化合物的心脏毒性(herg指标优化项目)。刚开始我们的数据比较少,经历了几次湿实验后产生的数据,虽然不是很多,但是放进模型进行训练后大幅度地提升了这一模型。在项目中后期阶段,计算结果基本上与实验结果相关性达95%以上,后来就不太需要去做实验了,而是直接使用模型预测结果去做分析了。
实际上,药企合作的初衷是希望通过AI的方法更快地做出药物,更快上市,更快产生对患者的临床价值。但按照以往的临床前研究可能需要好几年时间,现在最快几个月就可以完成,效率上的优化非常明显。
段宏亮:过去这些年,AI制药领域很多算法基本跟随AI技术而进步。
一、最开始的QSAR时代,我们更多是用机器学习,因为那时候数据量不是太大,机器学习足够用,所以支持向量机(SVM)、神经网络(NN)、随机森林(RF)等已建立的方法,很长一段时间都被用于开发QSAR模型。
二、随后,十年前以图像识别领域的卷积神经网络(CNN)为代表,开始了深度学习时代。相对而言,CNN在药物研发上用得不多,因为CNN是二维的,药物分子以三维为主,但无论如何,至少将深度学习概念引入药物研发领域。
但深度学习真正和药物研发密切结合,是将自然语言处理领域的深度学习技术引入药物研发之后。因为药物分子可以表示成一串SMILES代码,跟自然语言非常相像,所以后来在药物研发领域得到广泛应用的的RNN和transformer等深度学习模型,都是承接了自然语言处理的技术流派。
现如今,药物研发领域中遍布transformer-base的模型,比如BERT和GPT都是在transformer技术上发展起来的大模型。
此外,因为药物原子等价于图中节点,化合物的键等价于图的边,所以Graph-base的GCN(图卷积)流行开来。这种方法的基本思想是学习节点(如药物与药物的相互作用)、边(如药物-药物或药物-疾病之间的关系或相互作用)、图(如分子图)的有效特征表示。
三、直到最近两年,比较火的模型是对比学习、扩散模型等各种新的深度学习技术,在药物研发里的应用非常多。
最近几个月,大家一致认为在ChatGPT的推动下步入了大模型时代。但在学术界,比GPT更火的可能是BERT--谷歌推出的NLP大模型。
相对而言,因为蛋白药物、多肽药物具备更加庞大的数据量,比如PDB数据库可以提供20万左右的蛋白质三维结构数据量,可以训练出不错的大模型。目前蛋白结构预测模型还是以transformer-base模型为主。
比较可喜的地方在于,CADD等底层物理能量算法,正在将一些深度学习模型融合在一起。
比如David Baker课题组,他们一直在做RoseTTA系列,在做底层的物理能量计算,受AF2启发正在将深度学习与物理能量算法融合在一起,开发出RosettaFold,也有RoseTTAFold Diffusion用于蛋白质生成设计。
这也证明,底层物理能量计算和完全基于数据驱动的两个技术流可以相互结合。药物研发领域的算法在不停融合,不停升级中。
当然模型的泛化能力一直是一个比较严重的问题。在一些论文中,针对某些靶点预测的小分子药物数据集可以达到95%甚至99%的准确率。然而,一旦我们脱离这个特定的测试数据集,应用到新的药物分子上面时,泛化能力会明显削弱。
长此以往,导致我们在一个标准数据集上可以用很多很炫的算法,准确率刷到非常高,但过拟合问题却难以解决。
这可能有待于我们药学家、计算化学家以及AI专家进行深度融合,怎么把某个药物研发问题彻底定义好,而不是说药学的人在化学生物实验室里做实验,计算机的从业人员在在计算机实验室里面训练模型,各行其是。
刘伟:AI制药领域的算法能力同样来源于AI本身的一些算法,最近十年AI有三个重要的里程碑节点,分别为以AlphaGo为代表的强化学习技术的广泛应用、以AlphaFold为代表的蛋白质结构预测技术、以及最近的预训练AI大模型技术。
在强化学习方面,2020年左右,我们利用强化学习和VAE做了分子生成,无论是用什么方法,重点是要生成满足特定属性和条件的分子。后来这个技术我们在跟一家药企的技术合作中,选择将生成和SBDD统一起来判断活性,通过属性反馈来强化控制分子生成的化学结构。
后来药企也反馈这一方法的结果很不错,在不少药化合作项目上都能够明显看到DMTA循环周期缩短。我们将这一成果发表于ACS Omega,也是业内最早发表的经过湿实验验证的分子生成技术方案。我们还将生成式预训练AI模型结合药物构象生成,这方面的工作还在进展中。
此外,我们在模型泛化能力问题也有一些工作进展。
模型泛化能力这个问题确实非常困难,也是非常核心的问题,当前很多预测效果不尽人意,落地难的问题都是跟模型泛化能力有关。泛化也是机器学习研究的核心问题,在已知的数据集上做风险最小化的训练,从而希望能将模型推广到未知数据上,使其具有一定的预测能力。
一方面是前面提到的,如果能够将物理、化学知识有效地输入到AI算法模型中,就能够非常好地反映在化学、物理等底层的特征和规律,模型过拟合风险就会较低,有比较好的可解释性。还有就是利用几何深度学习方法约束化合物空间结构的学习过程,就可以使用比较少的参数,从而减小过拟合的风险,也增强了泛化能力。
另一方面,利用AI大模型技术,使用非监督的方法来减少数据过少带来的过拟合问题。
因为大模型可能已经比较好地反映出各种化合物的空间结构信息、属性信息,这样就对有标签的数据需求相对少,那么训练过程中泛化能力就能有比较好的提升,并且只需要较少的训练迭代,做微小的调整。
针对泛化问题的第二个例子,就是我们最新的一个工作。
我们在做AI辅助药物发现时,发现了这样一个问题,在A靶点(A场景)中训练的AI模型,会非常难以应用到B靶点(B场景)上。这也是一个明显的泛化问题,现在也没能100%完全解决,甚至有时候这种明显的降效得到了“模型不可用”的结论。
为了验证我们模型的有效性,我们做了一个名叫DrugOOD的框架,在github上有开源,并且根据不同的domain把它做了一个划分,比如按照骨架、实验assay、或者靶点区分,这样训练出来的模型就会非常不一样。
在这个过程中,我们实际上希望模型在不同场景具备一定的迁移能力,不然模型只能适合单一训练数据场景,这其实不是我们所希望的,因为这样的模型适应能力非常弱,没办法应用到新的问题上。
第三个例子是量子实验室的工作,和浙大也有合作,是针对某一类型的靶点去训练。
我们认为,如果不同场景下的数据混合在一起训练,不容易达到比较好的泛化效果,这样把它单独拎出来做一个AI模型,一定程度上也可以解决模型难以泛化的问题。
例如把含有金属离子的蛋白质靶点的数据拿出来单独训练一个模型。你可以认为是一种场景的细分,还有给GPCR做一个专门的AI模型也是这种情况。
谢昌谕:我个人在模型泛化能力问题上面也有比较深刻的感触,毕竟这是如今AI制药面临的最大的现实挑战之一。
我试过很多基于纯数据驱动的机器学习方案来提升模型在不同场景下的泛化能力,比如预训练一个大模型然后在下游任务上进行微调、小样本算法、元学习、 多任务学习和 domain adaptation等等,一些特定的问题如活性/亲和力预测或者分子的 pKa 预测,我们还甚至可以融入基于物理与化学的专业知识来提升模型的泛化能力。这些方法虽然针对某一些数据集/场景可以看到不错的提升,但整体而言,我们还是得根据不同的场景/任务去做定制化的策略。
最后,除了研究如何在训练数据被固定的前提下来提升模型的泛化能力,另一个值得关注的方向,是通过开发更新的主动学习方法去添加少量的合适数据来提升模型的准确度。
刘振明:CADD和AIDD确实是一种协同。
药企对于新生事物非常欢迎,他们知道做新的药物品种很难。
打个比方,如果他们自己培养一支AI团队,一年要花20个亿,还不如合作上花20亿和AI制药公司合作,既能收到“果实”,还有可能埋了几个“种子”。而且只要能成一个,依靠他们这种大公司的强大商业能力,一定能获得回报。
所以,现在只要AIDD企业能够交付药物品种,药企就愿意合作。
有个数字,过去五年,国外一些药企已经开始关注前端研发,超过40家药企建立了跟AI研发相关的部门。
为什么他们不抵触?因为药物研发行业跟别的行业很不一样,别的行业可能会竞争,但是药企缺少药物品种,有人能给我更多的选择,我为什么不去鼓励呢?
另外,药企更关注的是自身的商业版图。这种情况下,它和AIDD公司是一种互惠互利的关系,没有理由去反对,甚至是欢迎、扶持。但是你会发现,药企跟AIDD公司的合作,更多的是药物品种交付。药企不管你的软件有多好,能做品种就合作,签一个里程碑付费的合同。
但是这种合作更像是药企“系统外的合作”,药企并没有分享数据,甚至药企会用自己的数据,自己花精力做一遍验证,也绝不会把数据直接开放给AIDD公司。
其次,即便药企采用了现在常说的联邦学习,做了数据接口,也不能解决数据稀缺的问题。因为联邦学习使用的数据,大部分都是拷贝数据,甚至有些数据清洗完丢失了很多信息;而且由于联邦学习的数据光有接口,没有打通数据内部,所以“模型拿走数据留下”的理念具体实施起来非常难。
但在新药研发中,数据就是知识产权,命根子,所以传统CADD公司和AIDD公司的协同更多在哪?技术协同。
因此AIDD演化成三种商业模式:SaaS、CRO、biotech,即售卖AI药研平台与软件的使用服务、提供药物发现服务、利用AI自建新药研发管线成为药企,“药味”逐渐变浓。
在这种商业导向下,AIDD公司才会动不动说“颠覆”药物发现,实际上他们还是在“打辅助”:一定程度上避免了化合物设计过程中的试错路径,同时带来更多的全新结构,为药物发现打破常规的结构壁垒。
张煜:我从药物研发的角度说一下。
全球Top10药企都在做各种各样的药物研发,多数研发投入占当年总收入的20%以上。在疫情管控放开后,他们的研发力度在疫情之下非减反升,而且将更多精力投入在“抗疫”“抗癌”等核心领域,研发重点也从饱和的新冠疫苗转向新冠药物的研发上。
当然,也有一部分小药厂凭借一两个药物就上市,但因为药研部门缺少药物积累,实践和理论积累不强,长期盘踞在一类药或一款药上做深度研发,最终研发无以为继,上市亏损严重。
这是药物管线不足带来的困境,更进一步说是缺失平台化发展模式所面临的必然困境。
长期来看,AI制药平台化是企业打“组合牌”的关键,随着中国仿制药行业面临外部环境的快速变化,创新药领域政策出台密集、监管力度趋严,在同样的外部挑战下,企业对资源进行整合重配变得更加明显。
尤其是基于AI的药物研发势必成为医药行业的革命性力量,有望从根本上改变传统的试错药物设计流程。最近MIT传出消息,称他们已经研发出大语言模型,一天内可筛选超一亿种化合物,比任何现有模型都要多得多。
所以,从制药的流程看,AI技术已经渗透到多个环节,AI制药平台虽然现在还没有显示出优势,但一定会带来药物研发的革命。
此外,如今的AIDD公司在平台化策略中,既有AI计算平台(干实验),还有湿实验平台。从理论上讲,AI在任何情况下都起作用,特别是深度学习框架出来后,能在有限的范围内比较好地解决一个问题,在触及到人类认知边界的问题上效果最为明显。
总体来说,AI制药平台化至少会带来几个好处:
一、药研工作更稳定,减少了药物的人为干扰。
众所周知,药物研发的时间很长,业界的“双十定律”可以简明扼要地回答这个问题,即需要超过10年时间、10亿美元的成本,才有可能成功研发出一款新药。即便如此,也大约只有10%的新药最终能成功挺进临床试验。
这个过程中,有些企业研发一款药物可能会换好几拨人。换一拨人就要重新做实验,重新走流程,AI的加入会促使药物研发重新成为一项系统工程。
第二、更多的数据积累。
刚才讲到做实验,实际上数据积累本身是有价值的,但传统药企来没有在挖掘数据上投入很大的精力,导致数据之间的关联性并不强,遗漏研发规律。所以现在大模型在参数足够多的情况下,有可能外溢到不同的种类,可以进行相互参考。最近一些论文已经有这方面的探讨,我认为这也是未来的发展方向。
第三、药物研发预测性。
过去我们的所有的药物研发几乎很难讲预测性,更多是出现一个病就想办法做药,不管是实验方法也好,还是做发现、筛查,优化也好,都是有病才治病。
但一个AIDD平台可以把相关规律做总结,比如预测五年以后的新冠病毒是什么样子;通过深度学习和分子动力学预测个体身体状况,那么我们也可以更针对性地寻找相关的抗体或者药物。
刘伟:AIDD平台可以整合药物创新药物研发中的诸多复杂流程,AIDD公司会把很多工具都整合在一个平台上、快速迭代AI模型、干湿实验结合,目的是方便用户使用,提升迭代效率。所以AIDD平台绝不是静态的,而是一直动态变化,它需要吸纳新数据,自身进行迭代提升,即便是很少的数据也可以有非常大的提升。
除了行业内通常提到的数据反馈、流程迭代循环,我们也碰到非常不一样的例子—不是通过数据反馈去训练模型,而是通过湿实验结果数据来约束AI模型的搜索空间。
例如小分子或者抗体结合位点,只要了解了晶体结构实验结果后,就可以比较精确的框定分子和靶点结合位点,活性预测模型的提升能力可提升50%以上。
段宏亮:医药研发企业更多是医药项目驱动型,它们更在意的是管线。
医药企业自身的CADD部门,或者叫AI部门,往往只有三五个人,多是配合公司内部的医药研发项目,或者做一些比较常规的医药开发软件,更多是一种辅助作用,并没有太多的精力做原创性的算法技术开发工作。
但是对于AI制药公司来说,就不太一样了。
大多数AI制药公司的导向并不在于开发新药管线,而是算法开发。多数AI制药公司创始人是IT出身,他们更多是招聘大量的AI算法人才,研发CADD+AIDD的交叉类产品,以及一些底层算法开发。比如AF2出现后,他们可能会做一些蛋白质结构设计的新算法开发,进而用来做一些抗体药物的设计改造。
有个数据,截止到2022年11月,国内有80多家AIDD公司,主要分布在科研资源丰富或者产业集群的地带,以北京、上海和深圳三地最为突出,均有10家及以上AI制药企业选择落户。
根据创始人/团队的不同背景,中国AI药企主要分为6类:高校/研究所成果转化、互联网大厂入局、基金孵化;或海归博士、资深药企专家、互联网人创业。
可以说,这80多家公司给整个制药行业带来了无限的可能性。虽然我们不确定哪一家或者哪几家能够在整个AI制药行业竞争中胜出,但单纯靠医药企业内部的CADD平台,很难给我们这个新的AI制药行业带来太多的想象空间。