GAIR Live | CASP 15冠军团队大论道：结构预测的下一个里程碑，将在何处？ |（上篇）

作者：乔燕薇编辑：任平

2023/03/22 10:51

在CASP比赛创建者John Moult教授看来，这一比赛从来不是闭门造车，或是学术界的圈地自嗨。

2018年，在第13届CASP比赛中，一个顶着谷歌子公司帽子的参赛选手亮相，其AlphaFold系统以最高的预测准确率击败其他参赛队伍。

2020年，在第14届CASP比赛中，这一公司再次卷入竞技场，凭借AlphaFold二代系统以绝对的优势大获全胜，并在次年将技术成果全部发表于《Nature》和《Science》等顶级期刊。

这便是如今的AI殿堂级公司--DeepMind。

从那以后，人们首次将“人工智能”和“蛋白质结构预测”两个毫不相关的领域联系在一起。而DeepMind背后的谷歌，也凭借CASP大赛织造了一张梦寐以求的医疗商业蓝图。

从业内人士的角度，这或许是意料之中。正如John Moult教授创立CASP比赛的初心，便是希望以此推动计算生物学研究，加速理解细胞构建原理和推进药物发现，最终惠及全人类。

显然，DeepMind已经蹚出了一条可参照的发展路径。

不久前，CASP 15落下帷幕，尽管本届比赛中未见DeepMind身影，但诸多华人团队参赛热情高涨，在蛋白质单体/多体结构预测、蛋白质-蛋白质复合体结构预测、RNA结构预测、蛋白质-小分子配体复合物结构预测等多赛道上夺得桂冠。

不少参赛选手直言，“这是‘后AlphaFold2时代’的首届大型同台竞技，所有选手都获得了业内前所未有的关注。”

在AlphaFold2的冲击之下，蛋白质结构预测是否还能为人们带来新的惊喜？

本届首次新增蛋白质-小分子复合体预测和RNA结构预测两大赛道，是否意味着蛋白质结构预测不再稳占“C位”？

RNA结构预测领域是否会出现如AlphaFold2一般引发革命的技术工具？

从基础研究到应用研究，人们不断讨论着在CASP 15背后行业发展的诸多可能。

近日，由雷峰网GAIR Live&《医健AI掘金志》举办的《生物计算“奥赛”冠军团队论道：当生命科学遇上史诗级AI，何去何从？》线上圆桌论坛落幕。

GAIR Live | CASP 15冠军团队大论道：结构预测的下一个里程碑，将在何处？ |（上篇）

本次论坛邀请了多位在CASP 15中取得出色成绩的参赛者，由上海智峪生科CEO王晟担任主持，江苏理工学院生物信息与医药工程研究所教授常珊、密歇根大学计算医学和生物信息学系博士后研究员郑伟、浙江工业大学信息工程学院教授张贵军、上海智峪生科技CTO熊鹏参与讨论。

在上篇中，几位嘉宾共同分享了在CASP 15中的参赛经历，以及在AlphaFold2冲击下，蛋白质结构预测赛道该何去何从。

在下篇中，将聚焦本届两大新增赛道：蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力，探讨当下火热的AIGC技术在AI生命科学领域的可能性。

“全球人工智能与机器人大会”（GAIR）始于2016年雷峰网与中国计算机学会（CCF）合作创立的CCF-GAIR大会，旨在打造人工智能浪潮下，连接学术界、产业界、投资界的新平台，而雷峰网(公众号：雷峰网)“连接三界”的全新定位也在此大会上得以确立。

经过几年发展，GAIR大会已成为行业标杆，是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

GAIR Live作为雷峰网旗下视频直播品牌，旨在输出新鲜、深度、原创的大咖访谈与对话内容，打造辐射产、学、研、投的特色线上平台。

以下是主题论坛的现场内容，雷峰网《医健AI掘金志》做了不改变原意的编辑和整理：

CASP竞赛首次引入RNA赛道

王晟：你们对CASP 15竞赛有哪些印象深刻的事情？

常珊：我刚刚看到比赛结果的时候很惊讶，虽然知道参加比赛的华人组织很多，但没有想到前几个名次都被华人包揽，这让我印象深刻。

其次就是AlphaFold2在比赛中的应用非常广泛，往年我们参加多聚体竞赛时，通常会遇到一些困难的target，大家完成度不是特别好。

但这次比赛中感觉大家的完成度都非常好，一些困难的题目今年大家也能够完整地提交，很大程度提高了大家参与比赛的积极性。

还有我们自己的赛道，ligand。我印象特别深刻的是有一个target，H1114target，刚出来的时候我也被吓了一跳，因为它有56个配体。

我看到这个题目的时候其实是想放弃的，觉得组委会把这个题目设计的太难了，配体这么复杂的情况下，原本的程序就没办法使用了，只能自己重新写很多代码来实现target的计算。

但是想到这道题目对我们来说很难，对别人来说也很难，就坚持把题目做完了，一直到凌晨才提交完毕。

最后的评估结果有点遗憾，这道题目虽然有56个配体，完成的过程非常辛苦，但是和其他只有一个配体的题目所占的权重是一样的，所以在评分的时候我们并不占优势。

张贵军：对CASP 15来说，我们其实还算是新手，之前没有参加过CASP比赛。

首先从CASP的发展史来看，AI在蛋白质结构预测方面有着非常大的推动力，从CASP 12萌芽，CASP 13发展，CASP 14突破，CASP 15发展得更加成熟。

近年来在医药领域已经有一些企业取得了比较大的成功，比如在新冠疫情的应对上。国内的高校、研究机构、企业等等，都已经开始进入这一领域，速度之快、广度之大都非常令人惊讶。

从技术的角度来看，我觉得郑伟博士、杨建益老师会更有发言权。

就我们的感受而言，在这次的比赛中，单体、多聚体、复合物这三个赛道目前还是在AlphaFold2的基础上进行，尤其是MSA上的处理。

这些MSA信息的获取实际上是这一届比赛中单体复合物结构提升的关键环节，当然，这也取决于现在的AI模型的发展。

AI模型现在发展的也很快，残差网络、注意力机制、自然语言模型等等，都很好地理解了序列与结构之间的关系。

生命系统以及任何一个生命活动，都是通过生命的语言进行，氨基酸、蛋白质、单体复合物等等类似于人类语言中的字母、单词、句子，先进的AI技术能够很好地捕获到这些信息。

在CASP 12中，一些模型的精度比较低，当时的长度基本上都在100以内，能量模型、构象搜索过程等问题都是我们的障碍。

近年来AI技术在在蛋白质结构预测方面的应用在不断加快，尤其是MSA、AlphaFold2等等。

今年我们参加的是模型的质量评估赛道，比赛的过程中我们的感受是，在目前的方法上增加一些独特的特征，然后通过网络模型去学习这些特征，就能够以比较小的算力和代价取得较大幅度的性能提升。

王晟：对于来自学术界的团队来说，和工业界一个很大的差别就是能够使用的资源的量，Google、Facebook等企业可以用几千块甚至上万块的GPU来训练模型。

但来自学术界的参赛团队掌握的资源远远不及那些大公司，要在同一个赛场上和他们进行竞争，就要更好地利用小算力、小模型取得大的进展，这是一个非常好的启发。

郑伟：我觉得这次CASP 15很有趣的一个现象是参赛的队伍变得特别多，说明这个领域开始越来越多地受到学界和工业界的关注。

这次CASP 15蛋白质单体结构预测赛道的参赛团队和CASP 14基本持平，蛋白质-蛋白质复合体结构预测赛道参赛团队增加了75%左右，上次只有不到50个队参加，这次有90个队伍左右。有很多队伍开始关注蛋白质复合体预测这一问题。

这次比赛还开设了两个新的赛道，一个是RNA结构预测，另一个是蛋白质-小分子配体复合物结构预测。这两个赛道虽然是第一次开设，每个赛道也有超过30个团队参加。

今年的CASP竞赛整体看起来变得越来越繁荣了，同时竞争也变得越来越激烈。

另外，我认为今年CASP竞赛中放出的target的难度以及fold的结构种类，相比往届有了很大的提高。

比如target H1137，是由9个不同的蛋白组成的一个超级复杂的复合体，这样复杂的复合体在CASP竞赛中应该是首次出现。

在以往的竞赛中，受实验手段限制，这样的复杂结构很难解析出来。但在AlphaFold2等深度学习的预测模型帮助下，这次的比赛中能够完成一些比较复杂的复合体。

而RNA和小分子赛道的加入，使CASP比赛能够越来越全面地展示计算生物学的发展水平。整体来看，CASP比赛变得越来越有趣了。

熊鹏：这次比赛中印象最深的事情是竟然有RNA赛道。RNA结构预测在以前相对小众，关注度远远弱于蛋白质结构预测。

RNA结构预测并不是从今年才开始比赛，早在2010年左右欧洲就组织了“RNA-Puzzles”的比赛，已经举办了六七届，十二年的时间里才积累了39个target。

对于RNA来说，每年新解析的RNA只有几百个，其中大部分都是核糖体RNA或是附庸于蛋白质的小RNA片段，不适合做一个独立的fold，因此在CASP这种集中的竞赛上，可以作为题目来呈现的新增RNA非常少。

竞赛的组织者也非常有诚意，一共收集了12个target，这是非常不容易的，我们直到比赛之前都不确定会不会有RNA题目，看到组织方给出的12个题目非常欣慰，RNA结构预测的问题会通过这个平台被越来越多的人知道，吸引越来越多的人参与进来，这对RNA学科的发展也非常有帮助。

学界团队更易受算力掣肘

王晟：今年，你们在大赛上都取得了比较理想的成绩，能否总结一下在各个参赛项目上的优劣得失？

常珊：我们今年参加了两个赛道，一个是多聚体的赛道；另一个是ligand的赛道。这两个赛道一起参加确实特别吃力，往年比赛的时候我只参加多聚体就已经很吃力了，今年又增加了一个赛道，觉得更吃力。

在比赛成果上，我们在ligand赛道的成绩比较好，是第一名。当时我们对每个target都进行了预测，每个target的配体数量不同，我们几乎都能够准确预测到结合部位，即RMSD小于5埃。并且，有很多target我们团队预测的准确度都达到RMSD小于2埃。

有一些target特别难，我们只有部分ligand预测的比较准，但每一个target都能取的比较好的结果。这是我比较欣慰的地方。

在赛后的总结中，我发现有很多做得不够好的地方，比如比赛过程中在时间分配上发生了很大的失误，我们团队人比较少，只有两个老师和一个硕士生，三个人同时参加两个赛道很难兼顾。

按照组委会的评分方式来看，比较容易的target一定要做的精度特别好才能拿到分数。

很遗憾，为了完成比较难的target，这部分容易的target我们认为结果是对的就提交了，没有去精雕细琢，导致没有拿到分数，这也是我们最终排名比较落后的原因。

参加比赛的人数少既是我们的缺点，同时也是优点，我们的沟通效率会更高，在讨论问题的时候三个人碰个头就能定下来要怎么做。

下次再参加比赛，我觉得要么把任务分解一下，多让几个学生参与进来，要么就选择一个更侧重的赛道参加，避免精力不足。

王晟：在这种评分体制下，简单题目上大家的差距不会太大，但是难题一旦搞定，一道题的差距差不多抵得上5到10个简单题目。

所以我的打法是简单题目不要丢太多分，和大家差不多就行，重点去搞定难题。

张贵军：刚刚常珊老师提到的问题我们组也同样存在，今年是我们课题组第一次参加CASP比赛，还是新手，为了准备CASP 15提前半年在CAMEO上做了很多测试，我们参赛成员包括几个博士、硕士研究生。

通过本届参赛经验，从下一届开始我们需要更好的组织。

在CASP 15竞赛中，我们参加的赛道比较多，除了RNA和配体之外，其他的赛道基本上都参加了。

准确性评估的EMA实际上也是一个新的赛道，只是不像RNA、配体一样显著，这个赛道的评测主要是用三个词表，一个是QScore，一个是Score，一个是pLDDT。

QScore来自于Complex，也就是复合物领域中的一个评测指标，侧重于衡量interface的docking的分数。而Score主要衡量整个蛋白质复合物结构的精度。

pLDDT侧重的是残基级的精度。在CASP15中，我们组在pLDDT指标上领先幅度很大，这主要是得益于新的超快形状设别（USA）特征，采用了CASP 14以来的最新网络，自己也生成了一批训练数据，从而捕获残基集的误差。

残基级误差在药物研发中非常重要，因为它可以用来实现refinement过程，从而获得高精度的结构模型。

在Score方面，我们的指标没有排在前面，这也是刚刚提到的问题，算力。在CASP15竞赛期间，信息工程学院、学科给了我们很多算力支持，学院计算中心三分之二的算力都是我们在使用。

即使是这样，我们完整的AI模型也是在CASP 15结束之后才真正训练完成。我们现在也在积极复盘，查漏补缺。

pLDDT，包括 QScore我们也进行了分析，如果要提升精度，就要考虑接口处残基的数量、残基的互作，结合pLDDT指标，以及我们单序列平均pLDDT，复合物平均pLDDT这些特征都要考虑。

在单域、多域和复合物上面，我们的表现一般，在这里也恭喜郑伟博士和杨建益老师，做的非常棒。

一个最主要的原因就是AlphaFold2，MSA非常关键，而且需要大量的算力来做预训练模型，我们没有关注这方面。我们考虑的是设计蛋白质结构模式的辨识方法，通过盲测去验证想法的性能，确认它到是不是源于现有的PDB数据库的设想。

这也是一个非常久远的命题，但我认为随着共进化技术的发展，模板建模方法还会峰回路转，受到更多关注。考虑到现有算力、算法设想，我们对MSA没有做任何改动。从CASP 15来看，这两点非常重要，也是我们未来努力的方向。

王晟：张贵军老师提到一个非常重要的点：MSA的quality。

我在2020年CASP 14的比赛上的一次国际报告中，介绍当年我们TFold方法的Pros and cons时，我也讲了和张贵军老师类似的观点，就是MSA对于整个大分子，包括蛋白和RNA等的结构预测的重要性非常关键。

我们当时还做了很多的实验，用一个非常浅的MSA或是用包含了更多进化的序列跑相同的算法，其质量是完全不同的。

不仅如此，如果用一个相同的算法搜相同的数据库，但是使用不同的参数、不同的迭代次数、不同的e-value、不同的Z-score搜索MSA，它的质量都会很不一样。

这是一个非常有意思的问题，我们还要对它进行本质上的探索。

郑伟：刚才王晟师兄和张贵军老师都提到了MSA的重要性。就我们课题组而言，在MSA领域也做了几年的工作，总结了一些数据和算法，也开发了一些工具专门做MSA。

比如我们的DeepMSA算法以及最新的DeepMSA 2，这些算法采用了常规的基因组和宏基因组，用不同的工具来组合构建MSA。

我们认为MSA确实很重要，它不仅对结构预测这个问题很重要，放眼整个生物信息学领域，很多基础的预测问题，比如早些年的功能预测、位点预测等，很多的时候都要依赖PSSM，而PSSM则依赖于MSA的效果。

我个人认为MSA是整个生物信息学的基础，只要MSA做好了，无论是对结构预测，还是对生物信息学里的其他基础问题，都有很大帮助。

对于单体预测上一些较困难的蛋白，其同源序列的数目不够多导致了预测难度比较大。如果给 AlphaFold2两个target，其中一个MSA序列较少，另一个MSA序列较多，一般来说MSA序列较少的target结果会更差，MSA的质量很大程度上会影响target的难度。

今年CASP 15的assessor还专门提供了一张清单，上面整理了一些Top group成功的标签，其中MSA在Top5的group中都出现了，我觉得在未来MSA也会越来越引起大家的重视。

今年我们课题组算是第一次参加蛋白质复合体的赛道，得益于此前在单体上的算法积累和MSA的积累，虽然是第一次参加但是也取得了比较理想的成绩，MSA可以说是我们今年在比赛中获得成功的重要因素之一。

CASP比赛对我而不仅仅是一个比赛，同时也是一个比较好的学习机会。因为CASP比赛的时间比较集中，有三四个月的时间可以全身心地投入到比赛中。

平时做蛋白质预测、做的都是针对general蛋白的算法，可能关注不到某个蛋白的特性或生物学背景，但是在比赛中每做一个 target都会去研究这些，在比赛中能学到很多不同target蛋白生物学方面的新知识。

刚才很多老师提到课题组参赛的人数比较少，我今年的体会也比较深，因为实验室调整，我们今年不是以实验室整体去参赛，而是以个人的名义代表实验室参赛。

整个CASP 15期间，无论是前期的算法开发，还是比赛期间服务器、算法运行，都是我一个人在负责，服务器出现各种问题都需要我去和管理员沟通。

我在比赛期间睡觉时间非常少，一天最多只有六个小时的睡眠，每工作四小时就睡两小时这样轮转。如果人力有限的话，一个人参加多个赛道是非常耗费时间和精力的事情，对体力的要求也比较高。

另一个体会比较深的是，大家一直在提的算力局限性，学界的算力肯定不比工业界，这对比赛的影响还是很大的。

我们今年显卡个数也是比较有限，只有二三十张，所以参赛之前的很多想法，由于算力的局限都没有来得及去实现，比赛过程中很多工作都是一边摸索着一边做的，这是很大的遗憾。

将来如果有机会得到更多的算力，我想不仅是我，还有各位老师也会去尝试更多优秀的想法。

王晟：关于算力的问题，我们也在公司内部进行过一些探索的，考虑是不是所有的target都要堆算力去做，如果遇到某些搜不出同源模板的，或者根本就不存在相似fold的结构，这个结构或许是蛋白，或许是RNA，是不是堆更多的算力，或者训练一个更复杂的AI模型就能搞定？或者有没有别的方法来搞定这些target？

熊鹏：这次RNA比赛一共12个题目，分成三组，一组是天然的RNA序列，一组是人工设计的RNA序列，一组是蛋白质和RNA的复合物。我们最大的收获来自于人工设计的那一组RNA，一共有4个题目。

首先，相比其他的小组，我们在这四个题目上积累了很大的优势，使用我们自己的方法来预测这种人工设计的RNA，精度会远远高于其他的组。

以前的RNA设计并没有进入公众的视野，大家听得比较多的是蛋白质设计，比如David Baker组，他们开发了Rosetta工具，得到了很多蛋白质设计的成功案例。这次比赛中，来自斯坦福的实验室通过自己的方法人工设计出了一些RNA。

我们也是通过这次比赛来解开这些题目，研究这些RNA的来源，怎么被设计出来，从而摸索出了一套RNA设计的策略。对我自己来说打开了一扇新的大门，学到了很多新的东西。

比较遗憾的是第三组题目，蛋白质和RNA的复合物。这个方向一直都是我过去非常感兴趣的方向，我也一直想将蛋白质和RNA这两个领域统一起来，做统一的结构预测，以及统一复合物设计。

但很遗憾的是，这项工作的工作量比较大，构想也太过庞大，目前为止还没有完成。

我们原本打算在比赛中迅速开发出一个简易的版本，去实现那两个target的预测，但是发现没那么容易，匆忙的一两个、一两周或者一个月的时间，确实不足以开发出一套可行的程序，最终那两个target做得也比较差。

这个问题也并不是我们一个组的问题，对所有的组来说，蛋白质和RNA的复合物预测的都不是很好，这也是整个领域目前面临的难题。

但这个方向特别重要，因为生物体内很多功能的RNA分子或者蛋白质分子都是通过蛋白和核酸的相互作用来实现功能的。

比如基因编辑或者基因调控，涉及到的核心问题就是RNA和蛋白质的相互作用，这些问题目前都还没有解决。

未来还需要各位做蛋白质研究和做RNA研究的人一起协作，共同解决这些问题。

另外，前面几位老师都提到MSA，它对于蛋白质的结构预测至关重要，也是我们实现从过去的基于同源建模的方法到基于evolutionary coupling共进化的方法这一突破的核心角色。

MSA在RNA的结构预测中也受到了广泛的关注，但它究竟能起多大作用目前在学术圈内还有着较大的争议。

有人认为MSA对RNA结构预测的影响像在蛋白质结构预测中一样大，我们现在做得不好是因为MSA构建的还不够好，只要我们构建出更加优质的MSA，就能够提供更多的contact information或是orientation的information。

另外一派认为在RNA结构预测中的的MSA，可能只对二级结构预测或base pair的预测有帮助。对于其他的相互作用，MSA提供不了任何信息。

现在学术圈还没有达成共识，不同人的看法也不一样，大家在各自的想法上进行了尝试，目前还没有定论。

RNA结构预测问题跟蛋白质还是不一样的，很多未知的东西还需要大家以后去解决。

AlphaFold2引爆蛋白质单体结构预测的革命，能否燃烧到RNA领域？

王晟：CASP15比赛新增了两个重要赛道，蛋白质-小分子的复合物预测以及RNA结构预测。在RNA结构预测方面，哪些方向能因此受益而加速突破？RNA结构预测的研究能够怎样推动RNA相关疗法、合成生物学的发展？类似AlphaFold2引爆蛋白质单体结构预测的革命，能否燃烧到RNA领域？

常珊：虽然我没有参加，但是我原来在密苏里大学时，我的博士后导师邹晓琴和陈世杰老师是夫妻，他们两人的学生之间经常交流，所以我也了解了一些相关技术。

我们在江苏理工学院生物信息与医药工程研究所的团队里，刚好有一个成员是陈世杰老师的博士后，他的博士、博士后期间都是在陈老师的实验室，加入我们团队后主要负责RNA的结构预测。

他是物理学的背景，跟熊博士是一样的，所以他采用的也是物理模型--先构建二级结构，再考虑怎么把三级结构预测得更准确一些。

我认为AI在RNA结构领域的能力，还没有比肩AlphaFold2，在这个领域内，物理模型还是一个主流模型。

从这次比赛的情况来看，RNA结构预测的精度和蛋白质结构预测的精度相比，差距还比较大。为什么？

首先，RNA结构预测精度太低，拉低RNA-ligand预测结果。

我们参加ligand的赛道时，有几个受体不是蛋白质而是RNA结构，我们当时并不预测RNA的结构，就用组委会公开的其他小组预测的结构做了ligand相互作用的预测。

从最终看公布的结果来看，RNA的结构预测偏差实在太大了，这也导致了我们ligand预测的失败。

我们是受到了RNA结构预测不准确的牵连，受体都不准确的话，配体怎么可能会准确？

我认为，未来做RNA结构预测的人要和做蛋白质结构预测的人密切合作，才能把ligand做得更好。

不论是蛋白质还是RNA的结构预测做的不好，都会影响ligand相互作用的预测。

其次，我们也做了蛋白质和RNA相互作用的预测，在比赛结果中，其中一个target我们组排在前面，我非常意外，因为当时我们自己没有做RNA结构预测，直接将其他组的RNA结构预测的结果和蛋白做了相互作用。

虽然排名靠前，但误差也20埃左右，属于五十步笑百步。只是大家在这一项上的误差都非常大，我们错的稍微少一点点，就被排到了前面。

RNA结构预测的领域迫切地需要引入其他技术，否则其精度暂时会落后于蛋白质结构预测。

王晟：CASP15之所以推出了RNA结构预测赛道，也就是借比赛，进一步提高大家对RNA结构预测的关注，提高RNA预测精度，推动整个领域的落地，即RNA疗法以及合成生物学。

常珊教授讲的这两点非常有意思。

第一点是RNA和小分子。目前常见的RNA药物，小RNA、寡RNA、RNA疫苗等等，基本都是利用其线性作用的特性，而不是利用其空间结构。

但真实场景下的RNA，都是通过其复杂、动态的结构发挥重要功能的，如果我们能够准确地捕获它的复杂动态结构，理论上就可以像蛋白质-小分子药物一样，设计出专门针对RNA小分子的药物，从而target巨头调控作用的RNA，不论是在疾病治疗还是其他领域，都有着非常重要的作用。

第二点，RNA-蛋白质的相互作用预测，对于合成生物学至关重要。

比如如何构造调控网络、如何理解RNA和蛋白之间的作用机制、能否设计更好的结构，让蛋白质表达得更多、如何调控transfer factor，设计出能够与RNA特异序列结合的蛋白质(RNA-binding proteins)，以及构建出优越的底盘细胞（底盘细胞的选择和优化，是合成生物学链条上的核心步骤）。

张贵军：刚才熊鹏博士的发言我非常认同。

虽然蛋白质结构预测目前已经达到比较可观的精度，但我们还要考虑其动态性。

在生物体内，蛋白并非静止状态，而是时刻通过PPI相互作用，通过一致的原动力：电磁力导致最终形态发生变化，最终实现信号传导。

多态性是RNA和蛋白质同样面临的问题，蛋白在多态性方面的研究可能有助于提高RNA结构预测精度。

此外，目前RNA的数据不及蛋白质的数据全面。在蛋白质结构预测的数据库中，如今已经存在大量结构，且许多结构已经被证实是完备的。

在这种情况下，通过物理化学建模方法超越AI是有可能的。将来随着数据的增加或是新技术的突破，RNA结构预测也将会有所提升。

如同蛋白质结构预测的发展历程一样，在最初的CASP竞赛中，大家也曾质疑过是否能通过计算机来模拟蛋白质结构，这一点近年来已经得到证实，我相信未来RNA也可以达到这个水平。

我个人感觉RNA和蛋白质的相互作用非常重要，长期以来大家很关注基因组研究，一直被忽略的RNA为什么突然受到这么多关注？之前在技术上当然有一定难度。

然而，从药物研发的角度来讲，RNA起到的是桥梁的作用，同时又具有多态性，目前的药物靶标大部分还是蛋白靶标，未来RNA药物会是一片蓝海，有着广阔的落地场景。

郑伟：我没有参加RNA的赛道，对RNA研究也不是特别多，在这方面肯定没有熊鹏师兄这么有权威性，我谈一些简单的看法。

张贵军老师刚才谈到的蛋白质结构或者RNA结构所具备的多态性，或者我们可以叫变构，在CASP 15之前，组委会准备设置一个蛋白质变构赛道，但是比赛中并没有出现target，相当于这个赛道被取消了。

在CASP 15结束后，组委会成立了一个单独的蛋白质变构讨论组，对这个方向的讨论更多了，不知明年是否会单独设置相关赛道。

这也意味着，无论是蛋白质变构还是更遥远RNA变构，都是未来潜在的研究方向。

我记得贵军老师和西湖大学李子清老师，最近发了一篇蛋白质变构文章（Multiple conformational states assembly of multidomain proteins using evolutionary algorithm based on structural analogues and sequential homologues）。

总体而言，变构方面的研究太少，希望CASP16之后会有很大的变化。

此外，张贵军老师提到的RNA对制药领域或相关疗法的影响，我个人认为都非常对。以往的药物靶点大部分都是蛋白质靶点，但实际上RNA会成为一个比较好的潜在靶点，通过阻断RNA表达或阻断RNA与蛋白质形成复合物，从而阻断蛋白质形成功能，其疗效或许会更好。

未来研究RNA成为小分子靶点，在医药领域的落地也许会有比较好的发展。

刚才王晟博士提到一个问题，AlphaFold2预测蛋白精度比较高，RNA领域是否也会出现类似的机器学习算法，在未来引发RNA结构预测的革命？

我认为短时间内可能不太容易出现一个纯深度学习、全自动、不依赖任何人工参与，同时能够达到AlphaFold2相同精度的算法。

AlphaFold2能够成为一个很成功的深度学习框架，其中一个关键因素是具备大量的实验结构支撑其深度学习的训练。

AlphaFold2使用的PDB数据库已经建立了50多年，其中积累了数十万个实验解析的蛋白质结构，这样大规模的蛋白质数据能够为深度学习提供比较好的训练基础。

但PDB数据库中已经解析出来的非冗余的RNA结构只有数千规模，在没有大规模数据支撑的前提下，想要开发一个全依赖于深度学习框架的RNA结构预测算法，短时间内很难达到AlphaFold2的水平。

当然，这并不影响大家对深度学习框架的探索，比如一些课题组开发了基于距离约束的算法，还有课题组在尝试RNA的端到端的学习。

王晟：我补充一点。郑伟博士刚才讲到的几点，都是参考AlphaFold2框架做RNA结构预测。

智峪生科这次有一支参赛队伍就是采用了AlphaFold2的框架来做RNA三维结构的预测，叫做AIchemy-RNA。

从结果来看，虽然取得了AI方法中的第一名，但和物理的方法相比确实还是要差一些，原因正如刚刚郑博士所讲，主要在于数据量的问题，这是一个很大的约束条件。

其次，之前熊博士也讲到，对RNA的结构预测来说，MSA的影响是否像在蛋白质结构预测中一样强还是未知数。

第三，AlphaFold2的成功不仅仅在于其端对端的架构，而是将所有人类已知的序列信息利用起来了，使用了类似半监督学习的框架。

在这次比赛中，我们也把RNA的序列以及通过实验测得的二级结构等信息加入到模型之中。

从结果来看，虽然比不上物理的方法，但是在这次采取AI方法的参赛队伍中表现还是非常不错的。我们做的更好的是熊鹏老师的物理方法。

未来我们非常期待把AI的方法和物理的方法结合起来，取得更好的成绩。

熊鹏：首先说明一点，虽然我们这一组的方法在CASP 15的RNA组中获得了第一名，但是它的绝对精度并不高。

比如前面我们提到的两个RNA和蛋白质的复合物的结构，我们的误差在20埃左右，拓扑都是错的。

我们预测得比较好的target，比如人工设计的RNA，或者是几个天然的risen，精度在5埃、6埃左右，相对于蛋白质的结构预测精度还有很大的一段距离，而距离应用就更远了。

如果要实现RNA结构计算相关的应用，精度最好控制在两三埃左右，不论是对小分子设计还是对RNA的功能设计，都会有比较大的帮助。

所以，现阶段的水平离具体的应用依然有一定差距。

如果要从根本上去解决RNA预测精度的问题，还是需要神经网络直接学习RNA折叠的驱动力，也就是使用神经网络方法去训练一个精度更高的立场，但我自己并没有做太多的尝试，各位做神经网络的专家可以往这个方面尝试一下。

如果RNA的精度能够达到跟蛋白质预测差不多的水平，它应用方向到底哪里？在生物医药方面的应用主要在三个领域。

首先是大家关心最多的就是mRNA的优化或设计，这涉及到蛋白质的密码子优化的问题，以及mRNA稳定性的问题，这与RNA的结构在溶液中的状态也有很大关系。

当然，这个问题通过非结构的方法也许能够获得一些信息，但是有结构之后，能够对RNA的折叠判断更加准确，这对于mRNA的优化将会有非常大帮助。

第二个方向是针对RNA的target，或是针对RNA的小分子药物设计。在做药物的过程中，部分靶点很难找到小分子结合口袋，即不可成药靶点。

对于这些靶点来说，如果不直接抑制其蛋白质，而是去抑制控制蛋白质表达的Non-coding区，则为药物开发提供了新的思路。

这个方向依赖于两件事，第一是控制蛋白质基因表达，预测其准确的三级结构，第二是解决RNA和小分子的相互作用问题，针对特定的Non-coding区设计特定的小分子。这个方向国内有很多老师都在做尝试。

第三个方向是以RNA本身作为药物进入人体内发挥功能。目前的置放药物主要还是通过基因匹配抑制相关的基因表达。或是RNA本身作为功能分子实现基因调控、基因剪切等。比如设计特定的RNA切割特定位点，作为基因治疗的药物使用。

据我了解，有些组在尝试开发纯RNA的分子做基因编辑。目前基因编辑主要还是通过CAS蛋白体系，即蛋白质复合物+guide RNA，编辑特定的序列。如果我们直接设计一个纯RNA的分子，识别特定的位点，执行精编辑的功能，在理论上也是可行的。

总结一下这三个方向，第一是通过计算的方法优化mRNA的蛋白表达，优化其稳定性；第二是针对RNA target的药物设计；第三是将RNA本身作为新型药物。

雷峰网《医健AI掘金志》将于近日推出《GAIR Live | CASP 15冠军大论道：结构预测的下一个里程碑，将在何处？|（下篇）》，聚焦本届两大新增赛道：蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力，探讨当下火热的AIGC技术在AI生命科学领域的可能性，欢迎各位读者朋友关注。