在蛋白质-小分子复合体预测方面,“药物设计和酶设计”等领域的项目未来是否加速落地? 当下火热的AIGC技术,能为AI生命科学领域带来多少可能?
在CASP比赛创建者John Moult教授看来,这一比赛从来不是闭门造车,或是学术界的圈地自嗨。
2018年,在第13届CASP比赛中,一个顶着谷歌子公司帽子的参赛选手亮相,其AlphaFold系统以最高的预测准确率击败其他参赛队伍。
2020年,在第14届CASP比赛中,这一公司再次卷入竞技场,凭借AlphaFold二代系统以绝对的优势大获全胜,并在次年将技术成果全部发表于《Nature》和《Science》等顶级期刊。
这便是如今的AI殿堂级公司--DeepMind。
从那以后,人们首次将“人工智能”和“蛋白质结构预测”两个毫不相关的领域联系在一起。而DeepMind背后的谷歌,也凭借CASP大赛织造了一张梦寐以求的医疗商业蓝图。
从业内人士的角度,这或许是意料之中。正如John Moult教授创立CASP比赛的初心,便是希望以此推动计算生物学研究,加速理解细胞构建原理和推进药物发现,最终惠及全人类。
显然,DeepMind已经蹚出了一条可参照的发展路径。
不久前,CASP 15落下帷幕,尽管本届比赛中未见DeepMind身影,但诸多华人团队参赛热情高涨,在蛋白质单体/多体结构预测、蛋白质-蛋白质复合体结构预测、RNA结构预测、蛋白质-小分子配体复合物结构预测等多赛道上夺得桂冠。
不少参赛选手直言,“这是‘后AlphaFold2时代’的首届大型同台竞技,所有选手都获得了业内前所未有的关注。”
在AlphaFold2的冲击之下,蛋白质结构预测是否还能为人们带来新的惊喜?
本届首次新增蛋白质-小分子复合体预测和RNA结构预测两大赛道,是否意味着蛋白质结构预测不再稳占“C位”?
RNA结构预测领域是否会出现如AlphaFold2一般引发革命的技术工具?
从基础研究到应用研究,人们不断讨论着在CASP 15背后行业发展的诸多可能。
近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《生物计算“奥赛”冠军团队论道:当生命科学遇上史诗级AI,何去何从?》线上圆桌论坛落幕。
本次论坛邀请了多位在CASP 15中取得出色成绩的参赛者,由上海智峪生科CEO王晟担任主持,江苏理工学院生物信息与医药工程研究所教授常珊、密歇根大学计算医学和生物信息学系博士后研究员郑伟、浙江工业大学信息工程学院教授张贵军、上海智峪生科技CTO熊鹏参与讨论。
在上篇中,几位嘉宾共同分享了在CASP 15中的参赛经历,以及在AlphaFold2冲击下,蛋白质结构预测赛道该何去何从。
在下篇中,将聚焦本届两大新增赛道:蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力,探讨当下火热的AIGC技术在AI生命科学领域的可能性。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live作为雷峰网(公众号:雷峰网)旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
以下是主题论坛的现场内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理:
王晟:在蛋白质-小分子复合体预测方面,“药物设计和酶设计”等领域的项目未来是否加速落地?
常珊:其实不完全是蛋白质和小分子,刚刚我们探讨的有两个target,受体是RNA。当然我们做算法开发时,会偏向以蛋白质作为受体的蛋白质-小分子的相互作用预测。
但在去年江苏生物信息学专委会上,有学者对靶向RNA的配体小分子设计,以及相应的药物筛选表现出兴趣,给我们很大启发。因此,当CASP15上有这样的题目时,我们就有很大的动力去研究靶向其他受体的小分子算法开发。
而且郑伟博士说得很有道理,如果先靶向RNA,是不是比靶向后续它表达出来蛋白质更有效一些?这也是一个很好的思路。所以我觉得这一块的确值得我们去深入研究相应的算法。我感觉这样的一些工具,相对于蛋白和小分子的预测的工具来说,应该更少一些。印象中,我师兄华中科技大学黄胜友教授团队做了一个类似程序。
在本次CASP15的蛋白质-小分子的赛道设置上,组委会出了大概20多个题目,非常多,但有些场景我感觉跟药物设计不是特别匹配。
比如其中一个题目是,“有一个受体,这个受体有很多结合的小分子,有56个配体, 请预测所有小分子的结合位置。”一般的药物开发体系很少需要预测这么多配体分子。
因为我们平时和制药公司合作比较多,经常合作做一些药物方面的设计和开发,制药公司并不关心你能找出多少小分子,它们真正关心的是,不管你是自己生成,还是从数据库里筛选,只要能够找出一个抑制蛋白质的最合适的小分子就可以。
不过有人在CASP15交流会上透露,可能下一届就会有小分子的筛选问题--从众多小分子中筛选出最合适的配体。这也是目前制药公司都很关心的问题,因此我们现在还要继续完善方法,从而更针对于制药过程中的关键问题。
值得一提的是,自从我们在CASP15比赛上获得了蛋白质-小分子赛道第一名后,能明显感觉到合作企业和科研机构变多了。另外我们也和江苏本地的普美瑞生物科技公司合作开发了一些抑制剂,或PROTAC(Proteolysis-Targeting Chimeras,即蛋白水解靶向嵌合体)分子。目前一些实验结果都非常出乎意料,刚刚筛选出来的配体降解能力就达到了皮摩尔(pM)级的水平,这意味着不需要进行多轮优化就可以去做后续实验。
王晟:常老师说得非常对,CASP比赛中有一个pose(构象)的问题。简单来说,就是给你一个蛋白质,一个小分子,要把它建模到正确的口袋里面且形成合理的相互作用,查看和“标准答案”复合物之间是不是足够得近。
刚才说的 ranking问题,其实包括两层含义,一是构象预测/排序问题-找出最好构象的过程需要产生很多构象然后排序打分-即CASP15关系的复合体结构问题,二是不同分子的排序-即screening问题。在CASP蛋白质预测中,分成了 3D预测和QA预测,小分子结构预测中我个人理解上将二者融合起来一切称为1-构象预测/排序问题。
而制药公司也很关心的是screening问题。就是在众多的小分子中,比如从几千个,几万个,甚至几百万个,几亿个小分子中,筛选出一个或者几个抑制蛋白质活性的小分子。
实际上,我认为这几个问题的底层逻辑是相通的。如果我们能够把Pose问题或者docking、结合位置都做得准确,构象RMSD做到很小,同时能量也计算正确,那么对工业界关心的screening问题,也一定会有很好的推动作用的。张贵军老师对于蛋白-小分子,或者叫做大分子和小分子的对接,复合物建模应用有哪些看法?
张贵军:我们课题组主要做蛋白结构预测的研究,复合物方面研究工作刚刚开始,这也是今后需要努力的一个方向。
实际上,无论是大分子,还是小分子,和靶标蛋白来形成相互作用,最终形成一个复合物,其中一个有效的方法是通过开发打分函数,评估小分子或大分子在口袋里面的舒适度。此外,还有一种比较可靠的方式,即搜索模板,并基于模板信息做比对建模。
小分子这块我不太了解,但是从大分子-大分子相互作用的结果来看,我们可能需要一种新方式。因为它本来就是一体,如果单独对它建模,再进行刚性、柔性对接,这一定不符合实际的生命过程。所以fold和dock的过程应用同步进行。最近我看到有Arne Elofsson课题组的一个工作就是按照上述思想开展工作,精度提升非常高,受此启发,我们课题组也在开展相应工作,我相信未来在蛋白质结构预测、复合物组装方向的下游应用会进展迅速。
王晟:张贵军老师讲了一个非常有意思的点,就是在实际的生物体当中,不管是大分子-小分子,还是大分子-大分子,它们在生命体中的相互作用,并不像传统的计算模拟--先把两个分子的结构搞出来,再把它们对接到一起,而是类似于“共折叠”(co-folding)的模式。
过去的Autodock Vina是怎么做的?蛋白质保持可以刚体模式也可以让口袋去区域保持柔性,建模时候小分子可以和蛋白质侧链一起按照能量下降以及蒙特卡洛方式去调整位置。因此,小分子和口袋区域蛋白质侧链具有一定的自由度,但蛋白质至少在主链上是没有什么自由度的。
但真实情况下确实是这样吗?并非如此,为什么?
诱导契合学说(induced- fit hypothesis)谈到,在对接过程中,不仅小分子自身改变pose(构象),结合空腔中的氨基酸残基位置也会改变,有时候可能会导致蛋白质loop区域的位移,即配体和受体双向奔赴的过程。
所以,我们现在能不能用一种更好的建模方式,同时把这两种分子作用在一起?
实际上,AlphaFold2-Multimer(专长于蛋白复合物特别是结合界面结构预测的模型)已经初步尝试co-folding的方式,效果非常好。
那么类似的理念用到蛋白质-小分子的相互作用上,会不会也有奇效?答案是肯定的。
我们这次参赛的方法就是利用了类似理念。把AlphaFold2的这套方法,在蛋白序列后面再加上小分子frame,通过frame再构造成一个整体相互作用的模拟。我认为,未来这条路径一定大家都选择的方向,因为它更加偏向真实的物理过程。
郑伟:在蛋白质-小分子的binding问题上,早些年CASP其实一直在关注这个问题。在CASP10之前一直有一个赛道---蛋白质功能预测(protein function prediction),用于预测蛋白质ligand binding site。当然它没有特异性,只让你预测蛋白质的哪个位点可以绑定小分子,选手只要给出该预测信息即可。
但在CASP11之后,这条赛道就一直被取消,直到本届CASP15又重新设置基于Pose的蛋白质-小分子结构预测赛道。
因此,我觉得蛋白质-小分子赛道重新提上日程,而且是以更加精细的预测项目出现,一个重要原因是蛋白质单体或者蛋白质复合物的结构预测精度已经非常高。
我们有了蛋白质结构、小分子的具体的binding位点,binding pose、以及具体的小分子信息之后,你可以预测工作就更多了。整体来看, CASP的赛道设置不是特别割裂,每条赛道之间都相互促进。
另外,我非常同意王晟师兄的意见。我们确实应该系统考虑蛋白质-小分子的折叠问题,而不是先折叠蛋白质,再让小分子“打配合”。
实际上,PDB数据库中解析的真实实验结构,很多蛋白质可以配合小分子,也可以不配合小分子;甚至一些蛋白质和小分子配体后,但它的侧链结构,甚至主链结构都会发生小范围的变构。
所以蛋白质本身在折叠过程中,或者和小分子配体去做联合折叠时,它不应该是一个彼此割裂,或者“先有鸡还是先有蛋”的问题,它肯定是一个联合发展的折叠问题。
因此,如果我们利用类似于共进化信息,控制蛋白质-小分子的体系,是更有预测优势的。当然,具体怎么构建这种蛋白质和-小分子共进化,可能比较难。
因为即使在结构预测领域,共进化也不是百分之百都解决透了的。而且在蛋白质复合物里面,共进化要比单体更难。所以推广在蛋白质-小分子问题上,我们怎么设计共进化,或者是怎么发现潜在的共进化就更难了。具体的药物落地这一方面,我研究得不是特别多,张贵军、常珊两位老师已经总结得很好。
熊鹏:关于蛋白质-小分子的相互作用,我研究比较少,也就不发表太多的评论。我主要跟大家谈一谈RNA-小分子结合的问题。
RNA结构和蛋白质结构有很大差别,因为蛋白质的最小折叠单元是domain,每个domain有一个疏水折叠核心(hydrophobic folding core),那些小分子结合的口袋,都是位于domain内部或者domain之间的空腔,预测蛋白质和小分子的结合,需要先预测蛋白质的整体结构。
但RNA所有的基团都是极性基团,在折叠过程中并没有类似的疏水核心。所以RNA的最小折叠单元并不是domain,而是motif(少数碱基形成的结构模块),由motif组装后形成RNA的三维结构以及小分子接口。
CASP15上有好几个target,都涉及RNA和小分子的相互作用。但这些相互作用并不牵涉到整个RNA结构,只是牵涉了其中一些motif。比如R1117 target,就是小分子结合到差不多十来个碱基左右的motif口袋中;还有一个是人工设计RNA,其来源也是将一个结合小分子的天然motif,拼接到人工设计的框架上。
也就是说,对于和RNA结合的小分子而言,它与RNA的结合并不牵扯到RNA的整体三维结构,而只是作用于结构中的特殊motif。因此,如果我们要针对RNA的小分子做药物设计,问题的关键并非RNA的整体形状预测,而是RNA内部功能motif的预测。
这也是我之前一直非常强调的问题。可能我们并不需要过度关注RNA的端对端预测、overall fold预测,如果能够把RNA的一些关键结构的motif预测好,那么对于理解RNA的功能,比如说如何结合小分子就已经足够了。
王晟:熊老师讲了一个非常深刻的观点。因为我们知道RNA结构中,很多地方它是飘在那里的,类似于蛋白质里的intrinsically disordered regions (IDR) 。
熊鹏老师希望我们抓住问题的本质,也就是说,RNA跟蛋白质是类似的,都有一些motif组成的区域,只不过相对来说,蛋白质的这种刚性区域多一些,IDP相对少一点;RNA的非刚性区域可能会更多,但如果RNA要和小分子等结合形成结构,一定会有motif的存在,把它们给咬合在一起。
因此,从RNA的这点特性出发,对于我们理解RNA功能,如何设计把靶标于RNA的小分子抑制剂都至关重要,而且对于我们今后如何去预测RNA结构也提供了全新思路。
王晟:再谈一下时下最火热的话题——ChatGPT。这段时间,以ChatGPT为代表的AIGC概念相当火爆。不少生物计算实验室也拿出了一些成果。 能否站在您的角度,谈谈AIGC在AI生命科学领域的应用前景?
常珊:ChatGPT的放在生命科学领域来说再合适不过了。因为我们去表述生命科学中的一些分子,不管是核酸、蛋白还是小分子,都是以类似于语言“序列”的方式去表示,比如DNA 序列,蛋白序列、小分子SMILES。所以我觉得ChatGPT背后的语言模型天然适合生命科学研究,生命科学研究者也要尽快训练大型语言模型理解蛋白质、分子、DNA和RNA。
刚才王晟提到几个程序,我之前看过文献,但没有深入地去看这方面的算法细节,但GPT和ChatGPT出来后,我发现它的算法可以直接用在生物上,但是我们也要注意两个潜在问题。
一、数据。
ChatGPT在训练过程中,数据有很多,而且处理得比较干净。但对于生物学数据来说,哪怕在PDB数据库中的数据也可能有错误,而且这些错误数据可能没法通过简单方式做清洗。只有通过大量的实验才能做精确筛选。因此,在当前的生物学数据现状之下,训练完成的算法/模型都会有一些影响。
二、模型公开试用加大负反馈风险。
模型如何做验证,最常用的方法就是开放做公开试用。对于ChatGPT这种通用型模型来讲,大家会担心广泛且公开的试用,如果反馈学习可能会把模型“教坏”。但对生物学模型来说,判断一个模型好坏还是需要一些实验的方法,但是反馈可能会慢一些,导致模型迭代优化的速度会相对缓慢。
我们最近也用语言模型做了一个抗菌肽的序列设计,核磁解析的结构发现和设计一致,所以我觉得语言模型天然具有优势,只是在数据、模型后续迭代上需要进一步完善。
张贵军:分享几点。
一、AIGC等生成式AI技术现在确实非常火,我们已经看到ChatGPT技术、扩散模型等技术在小分子三维构象、蛋白质复合物预测等生命科学领域的潜力,未来可能会引领下一场变革。
三年前,我对人工智能的态度是,这个技术是生物信息研究中的一个必要条件,但不是充分条件,不是我们做什么都要用人工智能。但经过几年发展,我的想法也在不断改变。因为人工智能可以建立了强大的能量模型拟合函数,甚至包含上千亿个参数的大模型。在这种基于数据的模型表达下,或许AI真的能够充分表征生命系统。
刚才大家讲到的生命系统,有蛋白质、核酸等发分子表达,这些都可以想象成是通过 “生命语言”来进行调控。蛋白质序列本质上类似于自然语言:氨基酸以多种组合排列形成具有功能的结构,就像字母构成单词、单词形成句子所具有的含义一样。因此,在自然语言处理(NLP)技术应用到蛋白质结构建模问题也就不足为奇。
但人工智能进行蛋白质研究时,我们应该如何规避潜在问题?
一、围绕蛋白质做系统性研究。
人类基因组编码的蛋白质数量不少于20万个,但目前已知的只有2万多个,但由于可变剪切机制,同一个基因可以表达成多个不同的蛋白质,这2万多个人类基因究竟能编码多少个蛋白质目前仍是个谜。但可以确定的是,其余大部分蛋白质编码基因都在做调控。因此,未来需要进一步协同考虑蛋白质跟小分子、DNA、 以及RNA等相互作用,从而进行相关设计。
二、从生命本质出发研究问题。
用AI研究生命系统,实际上是人工智能模拟生命系统。因此,回到最本质的问题上,什么是智能?生命能够被完全模拟吗?
实际上,现在进行的蛋白质结构预测和设计,以及RNA研究、复合体研究等,它们即便能够通过语义、语法与规则被表达出来,但它们如何形成“生命”?事实上,蛋白质本身是没有生命的,通过蛋白质之间的互作以及细胞之间的协作,最终才形成生命活动,这是需要思考的一个方面。
就预测而言,现有挑战在于揭示蛋白质的折叠机理和活体状态的多态问题。目前AI模型拟合出来的还是一个静态的蛋白质结构;
就设计而言,脱离实验室条件,人工设计的蛋白质安全性、稳定性、耐药性(人工设计蛋白进入体内,白细胞可能会把它当成一个病毒来处理,马上产生抗体,蛋白质就可能会失效)如何都不得而知,而能否适合工业生产又有很多不确定性。
因此,回到问题的源头,为什么人是有生命的?因为人体存在一系列的群体连锁反应,最后组成了一个复杂的、拥有智能和意识的生命体。
在前不久的第11届全国生物信息学会议上,来自军事医学院的李昊称,“最近的模型可解释性方法将使我们能够打开“黑匣子”,从而增强对折叠原理的理解。”足以看出生成语言模型在设计功能序列方面的巨大潜力。
目前我们课题组也在不断深入研究,从最初采样到现在的能量模型,接下来我们就考虑蛋白质整体结构预测、多域、复合物模型,以及相应的模型质量评估技术。
郑伟:AI生成内容最近特别火,我也在关注,ChatGPT和stable diffusion都试玩了一下,从AI产生的内容质量来看,确实蛮令人惊叹。
具体地,AIGC在生命科学领域,或者在结构生物学、计算结构生物学领域都有什么应用。我个人认为,AIGC非常适合用在蛋白质设计和蛋白质结构预测。实际上,目前这一领域已经开始尝试算法应用,比如PLM(protein language model )方法。
它是利用机器学习去学习隐式的蛋白质进化的语言信息,类似于隐式的MSA信息,从而用学习到的蛋白质语言信息来替代传统的MSA。
总体来说,这一技术的前景很好。但是目前来看,我们训练出来的PLM模型,以及一些大公司放出来的PLM,结果不太令人满意,在CASP15中分数不高。
当然我个人觉得排名低不影响算法前景,目前分数不高可能是因为现在大家都在拼算力,以及大家刚开始描述MSA或者使用蛋白质语言,还在摸索阶段。
熊鹏:前面几位老师都分享了语言模型在蛋白质结构预测、蛋白质设计方面的应用,我就从另外一个角度聊一聊对ChatGPT的看法。
现在生命科学学术圈的每年论文增幅约几十万篇,我们逐篇地阅读起来肯定是不充分的。因此我一直希望能有一个AI机器人,或者学术辅助工具,帮我了解一个新领域、帮我看文献,给我一种学术指导。所以ChatGPT出来后,我很希望它能够实现这一目标。
但据一些老师的测试结果,目前ChatGPT还没有很好地实现学术辅助的功能。比如你问他一些专业的问题,它可能会给你列出一堆参考文献,但是你仔细去翻看那些参考文献,发现都是ChatGPT基于语言模型虚构出来的论文。格式都对,看上去很专业,但实际上什么都不是,纯碎是瞎编乱造的内容。
所以,如果要重新开发一个对我们做学术有帮助的AI机器人,可能需要重新训练一套新的模型。它既需要帮助我们去阅读文献、理解文献、总结文献、帮我们快速进入一个新领域,也帮我们做一些学术交叉的研究。
我相信在不远的将来,这个目标肯定能够成为现实。
Q:请问常珊教授:今年您带队参加的蛋白质- ligand复合体结构预测,这一技术在合成生物学,尤其是小分子多肽和蛋白质受体作用的预测上,有没有投入实用的可能性?
常珊:这是完全有可能的。
尽管和蛋白质结构预测相比,序列生成相对落后一点,但是目前Meta(Facebook)、Baker等几个团队都发表了很多论文,涵盖多肽设计、小蛋白设计、单体蛋白设计等。其中Meta(Facebook)最近测试了30多个蛋白,效果都不错,所以我觉得这一块落地的可能性还是很大的。合成生物学对蛋白质序列设计非常重视,所以我觉得能够设计出更好的蛋白质,一定会有助于合成生物学的发展。
Q:请问张贵军教授,您带队获准确性赛道复合物接触残基精度评估第一名,会带来哪些实用性成果?
张贵军:第一,模型的实用性,对后续的药物研发等过程非常重要,因为药物研发通常要花费十几亿美元,耗费十几年的时间,最终可能仅有10%的成功率。因此,如果预测模型并不精准,下游的环节都会有问题。
第二,蛋白质结构预测是一个不断优化的问题,因此我们要采用不同的方法去做精修,比如建立一个力场,去模拟蛋白质折叠过程,不仅要找到得分为90分的蛋白质模型,还需要找到 20 分的, 30 分的、40分、50~90等中低段模型。
第三,在多态问题上,实际上已经有一些例子,比如抗体设计、抗原设计。但我们发现一个有意思的现象,预测的pDockQ可能在90分以上,但与实验测定情况相差较多;有些实验分数非常高,但预测的pDockQ却在0. 23以下。这可能都是因为预测和实际结构多态现象所导致的原因之一,这也是我们将来非常重要的研究方向之一。
Q:请问郑伟博士:您在多条赛道上获第一名。有蛋白质单体单结构域、蛋白质单体多结构域、蛋白质复合体结构预测类别等赛项。后续的技术转化有哪些?团队都有哪些产学研合作?
郑伟:首先,药物研发的靶点很多都是蛋白质,所以蛋白质结构预测得好,无疑对药物研发来说是一个基础保障。
其次,今年的蛋白质-复合体的预测精度有明显提升,一定会在制药领域有一定应用前景。因为有些药物不光仅是 RNA药物,或者小分子药物,可能也是一些蛋白类药物。比如医药领域有一些抗体类药物,其实也是比较依赖于蛋白质-复合体结构预测这一基础问题。
CASP15上公布了antibody-antigen的复合体,也公布了nanobody-antigen的复合体,有些课题组在某些target上做得不错,我们课题组在大部分的nanobody和antibody上,复合体预测的精度非常高。所以我个人觉得在制药领域,复合体结构预测的落地速度会加快,因为它对抗体类的药物研发作用更直接。
Q:请问熊鹏博士:您对于RNA结构预测的研究进展,未来的落地规划是怎样的?
熊鹏:RNA结构计算在落地方面,相对容易的是通过“计算+实验”的方法做一些功能RNA分子的设计。因为功能RNA分子直接应用场景,比如基因治疗药物、调控元件等。第二是同时用计算+实验的相互迭代的方法,也能够更快地改进我们的方法,改进我们的计算模型。
长远来看,靶向RNA的药物设计是一个重要方向。RNA-小分子的相互作用预测,RNA-蛋白质在细胞内的调控元件的一些相互作用预测,将真正推动在生物医药领域的落地。