五大顶级学者的AlphaFold 2论道：破译结构、开源代码后的产研「大变局」（下篇）

黄昆 Alpha fold2

2021/08/21 09:10

过去半个月，Alphafold2先后两次沸腾了整个学术圈。

一边是“AI界年度十大突破”AlphaFold2终于开源，登上Nature；

另一边DeepMind又发布，堪比人类基因组图谱的，最完整人类蛋白质结构数据库。

对自家的“王者级成果”，DeepMind联合创始人、首席执行官德米斯·哈萨比斯（Demis Hassabis）也自豪表示：“这是迄今为止AI在推动科学进步方面做出的最大贡献，我觉得这么说一点儿也不夸张。”

但事实真是如此吗？

爆火的AlphaFold2是否被期望过高？后AlphaFold2时代，蛋白质结构领域是否会出现学术研究的“军备竞赛”？AlphaFold2代码开源，是否为各大药企和AI制药企业创造了一次最佳的超车机会？备受期待的AlphaFold2数据库，是否会成为专家们打开蛋白质功能奥秘的金钥匙？

近日，主题为“权威专家再谈AlphaFold 2：AI是否会带来结构生物学的「大革命」？”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会（ISICDM）主办，雷锋网、医健AI掘金志协办。

印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持，密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授，中科院计算机所研究员卜东波教授共同参与了讨论。

在《五大顶级学者的AlphaFold2论道：破译结构、开源代码后的产研「大变局」（上篇）》中，几位嘉宾共同深究AlphaFold2这次成果的技术细节与意义；

在下篇中，将着重分析AlphaFold2数据集，这一重磅成果实际的科研价值，以及怎样拓展到新冠疫苗、新药研发等其他领域的未来话题。

作为本次论坛的主办方，图像计算与数字医学国际研讨会（ISICDM）自2017年创办以来，一直是医工交叉的前沿阵地，围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论，旨在促进电子信息（包括计算机、自动化与生物医学工程）、数学和医学等领域学者的交流与合作，截止至今，ISICDM共邀请到400余位大会报告及专题报告嘉宾。

以下是主题论坛的现场内容，雷锋网《医健AI掘金志》做了不改变原意的编辑和整理：

黄昆（主持人）：Alphafold2现在开放了源代码，也开放了模型预测部分，制药巨头是否可能会复现这些过程？是否会对AI初创企业造成较大冲击？

许东：据说DeepMind本来想把Alpha fold2变成一种商业模式，但因为David Baker复现并开源了类似成果，所以他们才选择开源，不过这只是一种说法。

我觉得药企复现这些过程，商机可能不大，因为他们很难超越Alphafold2模型，也无法创造更大知名度，小公司要复现就更加困难。

但现在有很多与结构交叉的AI创业公司，以生物制药为例，通过结构做分子设计，在中国、美国都非常活跃，确实有不少商机。

许锦波：刚好这几天，我就正在与一个小公司讨论Alpha fold2复现问题。

他们表示，自己在David Baker之前就已经复现，他们买了16个GPU，重新写了训练代码，最后得出结果比Alpha fold 2稍微差一点。

所以从算法优化或算法简化着手，十几个GPU，几个工程师没准真能复现出Alpha fold2，尽管结果会差一点，但不会差太多。

黄昆（主持人）：Baker的3-track逐级结构约束，还有价值吗？

张阳：Baker这篇论文因为和AlphaFold2一起出来，媒体给了很大关注。

首先，这篇论文是独立的，虽然受到AlphaFold2启发，但他们的程序在AlphaFold2代码公布之前，就已经完成，不过算法精度要比后者差一些。

其次，他们的最终模型结构不是端到端，我认为这是AlphaFold2的一个精髓。

Baker实验室虽然也实现了部分端到端模型，但结果甚至还比不上，利用距离和接触约束的传统算法，这可能还是算力问题，Baker文章也提到过。

至于3-track算法，我也作过一个基准测试，结果要比论文中差一些，不过要比CASP14上，除了AlphaFold2其他组稍微好一些，我认为这种算法显然代表了一种进步。

但从方法学角度，端到端预测更能代表蛋白质结构预测的发展方向。

黄昆（主持人）：蛋白质结构预测仅仅是蛋白质折叠的一个子问题，物化知识在折叠问题研究可能才刚刚开始？force filed和simulation应该是否会有较大研究价值？

许东：自己读博士的时候，每天都在做force filed和模拟。

机器学习其实并不代表物理过程，物理过程是通过force filed的力场来驱动和折叠，折叠过程特别复杂。

而且物理和机器学习模式之间有很大的鸿沟，大家也在探讨有没有可能通过大数据方式回归物理模式，把二者联系起来。

但蛋白质比物理要复杂，我们的图神经网络是模拟氨基酸之间相互作用，通过图神经网络记录物理过程，并不是真实的物理过程，而是尽量接近物理过程，理解物理问题。

所以，我认为继续过程对force filed和simulation，可能会产生比较大的应用价值，但在蛋白质上可能需要很长时间理解，开发更好的工具。

卜东波：做模拟前会有一个很大的障碍，就是我们目前还没有标准答案。

刚才许东教授介绍的真实物理过程，因为折叠太快，现在还无法可以知道折叠中间态，而即使是使用深度学习，我们也首先需要具备标签和正确答案。

和simulation相比，蛋白质结构预测有X-ray、冷冻电镜做的结构作为标准答案，所以更加容易，但折叠过程，没有真实物理过程做标准答案，对AI训练和验证都是非常大的阻碍。

黄昆（主持人）：联想起二十年前structure genomics project（结构基因组学项目）的无果而终，AlphaFold2数据库会不会成为一个科技泡沫？

张阳：“科技泡沫”是个值得注意的现象，很多科学热点开始被人们寄予厚望，最终发现是一场泡沫，这样的例子很多很多。

回答这个问题之前，我先介绍一下AlphaFold2数据库。

上个月，Deepmind接连在Nature上发表了两篇论文：第一篇论文，关于AlphaFold2的算法，这是很重要的一篇论文；

第二篇论文，把AlphaFold2程序应用到人体基因组，把人体基因组表达的所有蛋白质结构，都用AlphaFold2预测出来。

DeepMind接下来计划把这项工作推广到其它20种关键生物体中，把目前已知的1亿多条蛋白质结构都预测出来，构建成一个数据库，和全球科学家免费共享。

他们设想有了这个数据库之后，生物学家只要有新蛋白质就可以立马找到，并利用AlphaFold2预测结构。

这个成绩对于外行来说，可能特别激动人心，甚至DeepMindCEO也表示，这将是他科研生涯最重要的一项成就。

但我认为第二篇Nature论文，以及结构数据库概念，对生物医学的影响会远远小于第一篇AlphaFold2算法论文。

第一，基因组结构预测数据库想法并不新颖。AlphaFold2之前，就有很多人做基因组蛋白质结构预测数据库。

其中最知名的就是Andrej Sali教授的ModBase结构数据库，他们对UniProt里600万序列都作了结构预测，包含3000万个结构模型；其次还有Torsten Schwede教授的Swiss-Model数据库，里面包含200多万结构模型。

此外，Jeffrey Skolnick教授和我在15年前，也建立了一个人体基因所有G蛋白受体(GPCR)的结构模型数据库。

以上这些数据库现在大家还都在引用，但他们的影响力远不及后来组建的在线服务器。

所以我认为，与传统结构数据库相比，AlphaFold2数据库的实际亮点应该是精度，特别是对非同源序列的精度，是目前为止最为精确的结构模型数据库。

此外，AlphaFold2数据库也有几个重要的局限：

第一，提供的只是预测结果，这些模型有效性，最终还需要实验验证和支持；

第二，很多蛋白质都会发生变异，而且因为翻译、修饰原因，给定一个未知蛋白，很少能在现有数据库，找到一模一样的序列。

因此，很多生物学家可能还会依赖在线服务器，来提供高精度蛋白质结构预测。

第三，AlphaFold2数据库不能提供功能性注解，虽然能提供三维结构预测，但它不能告诉蛋白质在细胞里做什么，而对蛋白质进行功能性注解，其实是结构生物学家解析蛋白质结构的最主要价值。

接下来，再谈谈20年前的知名项目——Structural Genomics，这个项目和现在AlphaFold2数据库有一些共同之处。

大家当时做蛋白质结构预测主要通过同源建模：对于未知蛋白质，如果和它同源的蛋白质结构被实验解出来，那就可以用同源建模方法，构建非常精确的模型。

但这种方法，当时面临一个问题，很多蛋白质没有并同源实验结构。

所以Structural Genomics项目，就是把计算机同源模建和结构生物学实验技术结合，把所有基因数据库结构确定下来。

为了解决这个问题，人们已经把自然界发现的蛋白质序列，按照进化关系分成很多同源家族。对于一个家族，只要一个成员结构已知，该家族其他成员结构也都可以通过同源建模确定。

所以这个项目计划：第一，找出哪些家族未知；第二，每个家族挑出一个成员，用结构生物学实验将它结构解析出来。

如果这个想法实现，那今后10年或20年内，所有人体包括自然界蛋白质结构，都可以用同源建模方法预测出来，这在当时是个很激动人心的想法，最早提出是上个世纪末，开始实现是2000年。

当时NIGMS（美国国家卫生院的基础医学研究所）在资金比较紧缺情况下，第一个五年计划就投资了2.7亿美元建Protein Structure Initiative（PSI）。2005年，又追加了3.25亿美元，总投资7.6亿美元左右。

但最终结果并不理想。许多蛋白质虽然把结构解出来，但没有功能性研究，相关论文也没办法发表，一般结构生物学论文，虽然都解结构，但更重要是从结构里学生物知识。

所以2010年以后，这个项目就失去了意义，到2015年正式项目终止。

新一代学生甚至有很多都不知道Structure Genomics这个项目的存在，很大程度上来看，2000年的一个美好愿景，最后变成了一场泡沫。

尽管现在媒体大量宣传AlphaFold2结构数据库，最终会对这个领域产生多大影响，我个人还是持谨慎态度。

许东：我补充一点，泡沫可能有两个层面。

第一，投资得不到回报，前期政府投了很多钱，最终产出远不尽人意，这是一种泡沫，但这个问题目前还不存在。

因为除了DeepMind，还没有其他小公司去投入大量精力，做这个模型，而且也没有人表示，要去PK DeepMind。

第二种泡沫，未来的预期远高于结果。大家仔细读读DeepMind的文章，他们把哪些预测准，或不准都已经写出来了。

但现在很多人的预期有一些超前了，认为AlphaFold2对所有蛋白、所有情况都预测很准，这可能还需要交流，但我觉得这不会导致资源大量浪费的那种泡沫。

许锦波：我补充一点，结构基因组学不是完全浪费，它给我们提供了大量训练数据，不然就没有这些机器学习模型。

首先，要感谢产生结构数据的实验生物学家，还有做大规模基因测序的学者，他们产生了大量数据，加快了研发速度。

结构预测现在宣传有一些过头，其实还有很多问题都没有解决。一些生物学家，仔细分析了现在的结构预测结果也都很失望，因为有些结构预测结果还是一团乱麻，达不到生物学的要求。

黄昆（主持人）：如果想实现复现训练，Alpha fold2的35万高质性回炉准样序列，以及MSA和template准备训练集，千万元量级算力，会不会是一个很高的门槛？

许东：这肯定是一个大工程问题。

把模型训练到极致需要一个很强大的团队，DeepMind这篇文章，第一作者就将近20人。他们的人力并非小实验室，或一般学术实验室能够比拟。

而且他们在算力和数据等各方面，也要比一般学术实验室强很多。不仅是Alpha fold2，各种大工程问题都需要大研究所或大公司。

所以我觉得，Alphafold2的问题现在已经做到一定量级，小实验室不应该想着如何在数据打败他们，更应该寻找新创新点。

而且并非Alphafold2后，就没有事情可做，也并非大家都要和Alpha fold在算力和大数据方面死磕。

张阳：我再列举一个具体案例。我们许多人都已经知道AlphFold2的算法，拿到了源代码，但大家如果真复现它的成绩，往往会面临很严重算力问题。

Alphafold2用了128个顶级GPU，并行训练了7天，才达到这个模拟精度，但大多数实验室都没有这样的算力，甚至很多实验室一个GPU都没有。

如果全部在一个GPU训练Alpha fold2就需要1000天，而且还是在已知答案前提下，不包括很多试错、调参、测试时间。

模型开发真正耗费算力就是反复试错和不断探索过程，这个过程往往需要单个训练几百到上千倍的时间，相当于在黑暗当中探索。

所以对Alphafold2这样成绩的复现，将是一个巨大的算力考验。任何一家学术实验室都很难完成这样的大规模数据训练、测试，所以在硬件要求上门槛很高。

黄昆（主持人）：AlphaFold2用来预测Loop区域有多大的可信度？

张阳：单独来讲，Loop区域本身并没有很稳定的结构，它的构型依赖于与周边结构的相互作用。

所以，Loop结构预测精度很大程度依赖于，其它有规则二级机构区域模型的精度，其中就包括Loop两端距离是否适合等因素。

目前，AlphaFold2的loop精度应该比其它算法精度高一些，但这是因为它们在有规则二级机构的核心区域预测精度比较高。当把中心骨架结构都预测好之后，再把Loop搭起来，精度就会比较好一些。

黄昆（主持人）：请问各位专家团队后续有什么样的计划？是否会继续提升现有模型的蛋白质预测精度？还是会借助AlphaFold2在其他方向做突破？

许东：我过去做了十几年蛋白质结构核心开发，从2012年开始，我就集中在深度学习在生物信息学中应用。

我们后续的计划主要有三方面：

第一，蛋白相互作用，例如蛋白对接，怎么利用深度学习选择更好的对接结构，相关文章目前已经出来，后面还要用更好的方式把蛋白相互作用预测出来。

第二，免疫和疫苗设计，这些方面有很大意义，我们在做单细胞数据的时候，能看到抗原决定部位上不同氨基酸，也能看到抗原上不同多肽序列在结构上怎么去发挥作用。怎么设计更好的疫苗，将是我们接下来的工作。

第三，用医学方法来提取动力学信息，更好表示出分子动力学的不同模式。

除了蛋白结构相关，我们还会做机器学习在单细胞数据应用，例如，受体与配体相互作用，在单细胞层面或空间层面，通过结构方式理解单细胞数据。

张阳：我们目前主要是想做和蛋白质结构相关的两件事：

第一，把深度学习推广到蛋白-蛋白复合体结构预测，这个问题比单链蛋白质结构预测更复杂，从功能注解来讲也更重要。

第二，把深度学习和结构生物学技术相结合，建立一种大标度利用低精度实验数据，快速确定高精度蛋白结构的计算方法。

传统的NMR和X-ray，以及现在的cryo-EM，对实验精度有很多限制，很多实验数据虽然已经产生，但三维结构并没有解析出来。有些实验数据辅助的结构预测，往往比单纯基于序列结构预测要精确很多，而且又可以帮助传统结构生物学实验快速确定结构。目前，这个问题并没有引起足够重视，是一个很重要的研究方向。

卜东波：刚才谈到的AlphaFold2是三合一。我们目前独立做的ProFOLD就是把前两个结合到一起，后面从距离构建结构还是独立的，现在我们逐渐开始把后面补齐。此外，我们也在尝试复现AlphaFold2的过程。

关于将来的方向，我觉得有三点：

第一，单序列预测，我非常赞同锦波教授的意见，在生物体内部，蛋白从转录到翻译都不参考MSA，折叠过程是非常重要的理论性问题。

AlphaFold2论文中也明确说MSA条数少于30条时预测不是特别准，所以我觉得可以尝试做单序列预测。

第二，糖蛋白预测，刚才许东老师谈过很多蛋白都有糖基化，尤其是新冠病毒的S蛋白上有22个N糖的糖基化位点。

目前，我们已经和生物物理所合作开展了一些湿实验，这些糖非常大，有显著的空间位阻效应，有些位点长糖之后，就会导致蛋白质结构和ACE2结合位点变化特别大；而且SPR实验显示，他们的结合能变化也非常大。

还有很关键一点，用冷冻电镜测结构时，事先要把糖弄掉，因为糖会导致信号非常不稳定，做糖蛋白结构很重要，我们和生物物理所实验也会做结构预测。

第三，蛋白质设计，例如张海仓教授和寒武纪公司合作的ProDESIGN项目。

黄昆（主持人）：谢谢各位，我自己不是做蛋白结构领域的，但我现在非常期待怎样把新结果应用在其中。例如直接做突变功能预测，突变对结构影响预测都比较感兴趣，虽然不一定100%都准确，但比现有一些结构数据或预测数据库要准确很多。

接下来，怎么样利用数据和其它数据结合在一起，例如和其他基因表达、蛋白表达数据结合在一起做系统生物学模型，尤其对疾病进行预测都是我们很关注的重点。今天非常感谢4位嘉宾做的精彩点评，同时也谢谢各位听众。雷锋网雷锋网