深圳湾实验室周耀旗：填补AlphaFold 2缺口，开启所有蛋白质结构的高精度预测时代

周耀旗深圳湾实验室蛋白质折叠

作者：吴彤

2023/12/04 11:11

人类能否参透微观世界的奥秘？

如果把这个问题放在生命科学领域，直接指向就是遗传信息的最终生成物——蛋白质。

人类的体内有10万种以上的蛋白质，它们都是由20种氨基酸排列组合产生的。数十到数百的氨基酸集合成为拥有各种立体结构的蛋白质，这些蛋白质在它们的“坑洼”处和特定的物质相结合，而发挥其各种各样固有的机能。

这也就是说，只要拿到了每一种蛋白质的结构，就能得知它的功能。

那么更进一步地，人类想要在通过蛋白质结构辅助设计、新药分子设计，研制出可以带来领域变革的原创新药，就变的“十拿九稳”。

这并非随意而下的定论。以医药研发行业公认的“双十定律”来看，创新药从开始研发到上市最少需要10年，耗资最少10亿美元。但即使满足时间和金钱的双重成本，创新药研发成功的概率依然只有不足10%。

“这是一个蛋白质结构预测时代。”厘清生命科学的底层逻辑，在基础科学与临床药物之间搭起一座桥梁，是无数人的终生理想。

在蛋白质这一命题上，曾有全球科技巨头谷歌旗下的前沿人工智能企业DeepMind，将机器学习和系统神经科学的最先进技术结合起来，建立强大的通用学习算法，最抢眼的一大成果便是在蛋白质结构预测上的应用。

2020年底，其人工智能系统“AlphaFold 2”一战成名，将人工智能预测的蛋白质结构达到了实验测定的精确度。直到今年10月底，DeepMind对蛋白质结构的研究仍在继续，并对外剧透：AlphaFold 3即将推出，已用于药物设计。

具体细节可点击文章：「AlphaFold 3」要来了？DeepMind最新推出新一代蛋白质结构预测工具，已用于药物设计

除了工业界的这位常青选手外，不少学术派也置身其中。

不过，一个最新里程碑进展已经出现：人类可望实现对所有蛋白质结构进行高精度预测，弥补了AlphaFold 2对那些在天然蛋白质中难以找到同源序列的蛋白质无法进行高精度结构预测的不足。

这一成果来自深圳湾实验室周耀旗教授团队（汤金乐、张哲、詹剑、周耀旗），目前该论文成果已经上线预印本网站bioRxiv 。

深圳湾实验室周耀旗：填补AlphaFold 2缺口，开启所有蛋白质结构的高精度预测时代

链接：https://biorxiv.org/cgi/content/short/2023.11.22.568372v1

补上AlphaFold 2的一块缺口

众所周知，通过实验技术确定“高分辨率蛋白质结构”，既昂贵又耗费力。直到AlphaFold 2的出现，开启了一个基于深度学习的计算预测时代。

但，这一方法也仅适用于那些天然存在的、已有足够同源序列的蛋白质。

这是因为AlphaFold 2主要依赖于进化信息进行预测。它是通过端到端的深度学习、利用大数据和大模型，找到了多个同源序列与相应的“单一”结构之间的关系。

也就是说，AlphaFold2强烈依赖于多序列比对(MSA)中的进化和协同进化信息。对于找不到太多同源序列的蛋白质(例如抗体，孤儿蛋白，病毒蛋白，复合物等)，AlphaFold 2预测的精确度就会大幅度下降。

数据显示，虽然估计AlphaFold 2可以覆盖大约98.5%的人类蛋白质组，但只有58%的残基可以被可靠地预测，而只有36%的残基可以被高置信度地预测。

拿抗体来说。抗体本身是针对新的抗原进行的快速突变，进化时间相对较短。它们是基于抗体库中挑选出来的，因此抗体的序列并不多样化，这导致过去AlphaFold 2难以准确预测其结构。

但这并非没有解法。

解决同源序列不足的蛋白质结构预测的两种方法是：

用新解析的基因组或宏基因组数据更新序列数据库，并提高同源搜索的灵敏度。这可能对某些蛋白质有效，但不能解决那些缺乏天然同源序列的蛋白质的问题。

另外一种方法是，通过学习数据库中的其他进化序列，使用隐含进化信息的蛋白质语言模型。

然而，这两种方法均无法对不同的蛋白质实现一致的、高精度的预测。

“如果天然同源序列不充分，是否可以采用人工生成的同源序列来改进结构预测？”

周耀旗教授作了一个形象比喻：既然上述蛋白质没有那么多兄弟姐妹，能否人为地制造多个，再用AlphaFold 2来预测结构。

但这一方法的难度在于：

其一，与大多数经过数十亿年进化的天然序列不同，人工生成的同源序列是在实验室进化的短时间内产生的，目前尚不清楚高度同源序列(>95%序列同一性)，是否可以直接用于AlphaFold 2或相关的预测工具。

其二，大多数深度突变扫描实验都是通过功能筛选进行的。例如抗生素抗性蛋白、荧光蛋白和具有特异结合性能的蛋白。鉴于数千种蛋白质功能，不可能针对不同的功能开发不同的筛选技术，更不用说并不是所有的蛋白质功能都适合高通量研究。

因此，利用人工同源序列进行结构推断，将需要一种技术，它是基于结构稳定性来筛选结构上同源的序列。

原则上，这种技术可以适用于所有依赖稳定结构发挥功能的蛋白质，无论其功能类型如何。现有的监测蛋白质折叠稳定性的方法，主要依赖于蛋白酶诱导的蛋白质水解或蛋白质片段互补实验。

然而，每种技术都有其局限性，如筛选能力或靶蛋白的大小限制。更重要的是，这些技术并不是为预测蛋白质结构而设计或测试的。

针对上述问题，周耀旗教授介绍，“我们发现，采用人工生成的、基于结构稳定性筛选的、并通过高通量测序所获得的同源序列，作为AlphaFold2的输入，可以实现蛋白质结构的高精度预测。”

深圳湾实验室周耀旗：填补AlphaFold 2缺口，开启所有蛋白质结构的高精度预测时代

周耀旗教授

实验结果表明：

•仅一轮带有少量突变的大规模筛选，就足以实现结构的高精度预测。

•对于实验的5个蛋白质中的4个，只进行了一轮深度突变序列的筛选，就足以使预测结构的准确度达到小于2Å RMSD。其中3个蛋白质的表现甚至优于使用天然同源序列的AlphaFold2。

•唯一一个预测结构RMSD大于2Å（2.92Å）的蛋白质，有一个完全暴露在表面上的β发夹，在非结晶条件下可能是可以灵活变动的构象。

值得注意的是，该研究通过将简单的分子生物学实验（深度突变扫描加体内或体外筛选）与高通量测序相结合，显著降低蛋白质结构测定的成本，并提高周转效率。

也就是说，这种具有成本效益的技术可以在任何分子生物学实验室进行，而不需要昂贵的设备。相比用实验方法解析这些结构，如X射线衍射或冷冻电镜等，费用要低至少一个量级，而且该方法实验操作简单，后续有望改写蛋白质结构的研究范式。

此外，这一技术可以进一步扩展到预测蛋白质复合物，以及具有翻译后修饰的蛋白质的结构。

据悉，这一方法命名为“Sibs-Seq”，兄弟姐妹的测序。

目前该论文成果已经上线预印本网站 bioRxiv，标题为《Effective High-Accuracy Prediction of Protein Structures from Easily Obtainable Artificial Homologous Sequences by Structure-Stability-Based Selection》（基于结构稳定性的筛选，从容易获得的人工同源序列中高效高精度地预测蛋白质结构）。

回到新药研制的社会话题上，该方法也将有极大的应用价值。

通过预测蛋白质的结构和变化，可以更好地了解蛋白质与药物相互作用的机制、抗体与抗原相互作用机制，从而设计出更有效的药物。

此外，该方法还可以应用于合成生物学领域。通过预测蛋白质的结构和变化，可以更好地了解合成生物学中的生物系统如何响应外部刺激，从而优化生物系统的设计和性能。

“低突变无用论”成为过去

“在我们的工作过程中有一大惊喜，反而成为了这一研究的重要转折点。”

周教授意思是指，利用AlphaFold 2进行蛋白结构预测时，如何处理自然进化和人为变异的差异方面，已经有了一些新发现。

由于自然进化需要几千万年甚至几亿年的时间，这个过程中许多氨基酸发生了变化，且氨基酸变化的范围广泛且变化量大。因此，许多人在处理进化信息时会排除相似同源的信息，认为这些信息量太少没有用处。

周耀旗团队虽然认为人工低突变同源序列很有用，可以从中萃取出比较准确氨基酸接触图，并在RNA上证明了这一点，但AlphaFold 2是用高突变的同源序列来训练的，可能需要人工进行多轮进化的多突变序列，才能到达一定的效果。他们没想到，即使只改变一个或两个氨基酸，只要有足够的数量就可以使用AlphaFold 2来预测蛋白质结构，达原子精度。

他们这次实验一共做了的5个蛋白质，里面有3个，利用获得的人工同源序列，预测的蛋白质结构比用天然同源序列还要精确，这是一个意外的发现。这表明，尽管天然同源序列对许多蛋白质可以通过搜索获取，但人工同源序列有它的优势。

周教授认为：

首先，突变少，意味着对结构的影响小，完全相同结构的可能性远远超过天然同源序列，因此大量少突变的人工同源序列比少量多突变的天然同源序列应该对结构预测更有用。其次，不像天然同源序列，人工同源序列的数量是可控的，如果覆盖率不够高，可以再做几轮实验来达到目标。

其次，自然进化的序列还受功能以及其它与折叠不完全相关的因素决定，也包含着测序、比对可能错误等过程带来的噪音，而人工同源序列则信噪比好很多。

最后，该方法不同于利用功能筛选的方案，比如抗性基因的功能，利用结构的稳定性来筛选，保证了方法的普适性以及突变序列与原来序列结构的一致性。

据周耀旗介绍，这一方法包括深度突变、稳定性筛选、高通量测序和结构预测等四大关键步骤。

1，深度突变：对基因进行深度突变。这意味着对基因的整个序列进行随机突变，以单突变和双突变为主，涵盖了所有的位置，突变种类至少10^ 6次方以上。

2，稳定性筛选：突变后的>10^ 6的基因库会被装入一个设计成能够进行稳定性筛选的质粒，并电转到大肠杆菌里，其中突变后的蛋白质结构稳定性高的基因变体，它会把鼠源二氢叶酸还原酶两个片段拉在一起，形成有功能的结构，导致甲氧苄啶耐药性，大肠杆菌能够在甲氧苄啶存在的条件下生存，繁殖，和扩增，导致稳定性高的基因变体被富集。反之，对于那些突变后的蛋白质结构不稳定的基因变体，大肠杆菌没有甲氧苄啶耐药性，从而这些变体会减少或者消失。

3，高通量测序：在经过一段时间（如12-36小时）的培养后，稳定性高的蛋白质会生长得更快，这样其序列数目就会更多。通过高通量测序可以测量出很多序列，其中有些序列的数量特别多，有些则非常少，还有的序列已经消失。

4，预测结构：通过比较不同突变体的富集度，可以估算其稳定性。然后把结构稳定的蛋白变体作为同源序列放到AlphaFold 2进行结构预测。这个预测结构的过程就是该方法的最后一步。

回国以来的里程碑工作

2021年3月，周耀旗结束了长达36年国外留学及教学生涯，加入深圳湾实验室，担任系统与物理生物学研究所副所长。

现阶段主要工作是蛋白质和RNA结构的预测、功能蛋白质设计、以及开发和应用蛋白质和RNA新语言模型。

在RNA结构预测上，周耀旗团队成功地开发了目前最大的核酸序列数据库MARS，大大改进了通过RNAcmap进行优质同源序列的搜索，并由此发展了RNA同源序列比对语言模型RNA-MSM，可以更加准确地预测RNA的二级结构和三级结构稳定的碱基对。

此外，团队也发展了一个基于接触图神经网络的蛋白质设计模型SPIN-CGNN，比目前的方法在多个计算指标上有不少的进步。

而此次所有蛋白质结构的高精度预测工作，也是周耀旗这两年来研究工作的一大里程碑。

“这是我回国后比较满意的一个工作。”周耀旗表示。

同时他也指出，“在AlphaFold出现之前，靠测序来解析结构这个念头就有了。我2006年之后在美国印第安纳大学开始做这个项目，在澳洲与詹剑、张哲、熊鹏等合作利用RNA证明了低突变的同源序列具有高质量的结构信息，如今在汤金乐加入团队后总算证明了人工同源序列的独特优势。”

该文以汤金乐，张哲为共同一作，詹剑和周耀旗为共同通信作者发在预印本网站 bioRxiv。先发预印本，周教授期望能够得到更多的同行们的建议和指正。

詹剑，于2004年、2010年获得中科大学士和博士学位。2010-2013年在美国印第安纳大学与普渡大学印第安纳波里斯联合分校作为博士后，2013-2021年在澳大利亚格里菲斯大学糖组学研究所做研究员，现在是深圳湾实验室研究员，最近作为创始人建立了砺博生物，从事靶向RNA的小分子药开发。

汤金乐，于2016年获得苏州大学的博士，2016-2021年在北京大学深圳研究生院化学生物学与生物技术学院做博士后和助理研究员，2021年起加入周耀旗课题组担任助理研究员。

张哲，2013年本科毕业于中科大生物技术专业，2021年通过GU-CAS联合培养博士项目，获得澳大利亚格里菲斯大学哲学博士学位，后续跟随周耀旗回国加入深圳湾实验室，今年6月起留任周耀旗课题组担任助理研究员，主要研究方向为RNA相关的结构生物信息学。

深圳湾实验室周耀旗：填补AlphaFold 2缺口，开启所有蛋白质结构的高精度预测时代

詹剑、汤金乐、张哲

值得注意的是，回国以来，周耀旗教授也开始做一些比较偏应用和转化方向的工作。

2022年9月，他联手詹剑、方超，利用三人分别在计算、生物和化学领域的专长，共同创立了砺博生物（Ribopeutic），从事靶向RNA的小分子药物的开发。目前基于人工智能、干湿闭环的RNA靶标发现平台，砺博生物已发现多个选择性高、活性好，靶向 RNA 的小分子，在癌症、罕见病和病毒性感染等领域布局。

据周耀旗介绍，他们正在进行另一个与RNA相关的工作，并预计很快就可以投稿。

“在RNA结构预测上，我们希望能够在RNA结构数量少的情况下，建立可以泛化的、有较高精度的预测模型。为产业界，特别是我们砺博生物的靶向RNA的小分子药物研发引入AI4S的前沿进展，并提供一系列基于基础科学研究的源头创新。”

｜深圳湾实验室周耀旗课题组，博士后招聘中

周耀旗教授，于2021年3月起作为资深研究员全职加入了深圳湾实验室。

他于1984年获中国科技大学学士学位，于1990年获美国纽约州立石溪大学博士学位。

曾在北卡州立大学、哈佛大学进行博士后研究，师从诺奖得主Martin Karplus教授。相继在纽约州立布法罗大学担任助理教授、终身副教授，在印第安纳大学任终身正教授，在澳大利亚格里菲斯大学任正教授。主要从事蛋白质/RNA的序列、结构与功能和表型关系方面的基础研究，以及生物分子检测、药物开发方面的应用研究。

周耀旗课题组主要围绕着RNA和蛋白质的序列、结构及功能之间的关系，以及生物高分子的应用开发等几方面进行科学研究。

课题组研究的特色是结构生物信息计算和现代高通量、自动进化生物技术相结合来实现对序列、结构及功能之间关系的深刻理解，从而达到生物高分子在多方面应用的这个目标，其中包括精准医疗服务的针对性药物设计和个性化生物标志物的检测。

课题组主页：http://zhouyq-lab.szbl.ac.cn/

有意向者请发送至邮箱：zhouyq@szbl.ac.cn

本文作者吴彤，长期关注医疗科技方向，欢迎添加微信互通有无：icedaguniang 雷峰网(公众号：雷峰网)雷峰网