尽管,距离Deepmind公司AlphaFold2的横空出世,已经过去了两周的时间,但是围绕AlphaFold2的讨论热度依然不减。
AlphaFold2是否是完美无缺,如果不是,它的“胜利”具体体现在哪些项目上?AlphaFold2对结构生物学的影响有哪些,哪些方向能受益而加速突破?哪些方向会受到影响而淡出?学术研究者与企业工程人员该如何分工,进一步实现“产学融合”的高效转化?
关于AlphaFold2,太多的问题需要解答。
近日,主题为“权威专家谈AlphaFold:DeepMind到底突破了什么?”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会(ISICDM)主办,雷锋网、医健AI掘金志协办。
印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持,密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授共同参与讨论。
图像计算与数字医学国际研讨会(ISICDM)自2017年创办以来,一直是医工交叉的前沿阵地,围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论,旨在促进电子信息(包括计算机、自动化与生物医学工程)、数学和医学等领域学者的交流与合作,截止至今,ISICDM共邀请到400余位大会报告及专题报告嘉宾。
在今年的ISICDM 2020上, “计算解剖学”创始人的Michael I.Miller教授,新加坡国家科学院院士、发展中国家科学院院士沈佐伟教授、瑞士工程科学院院士Michael Unser教授、美国国家发明家科学院院士王革教授等数十位嘉宾分别进行了主题演讲。
黄昆:说到蛋白质结构,了解其结构不仅是为了了解它,还会将其应用于制药。这就牵扯到蛋白和药物之间的交互作用。同时,蛋白的结构并非一成不变,是一个动力学过程。
那么,AlphaFold2能否扩展到分子动力学MDS领域?能否应用于蛋白-配体相互作用/对接,蛋白质-蛋白质相互作用?能否应用于蛋白质设计呢?
许东:在蛋白设计方面,AlphagoFold2能够比较直接地应用。之前应用不同序列设计出新结构的方法,可能不用改太多就可以完成。
蛋白设计的大部分难点不在结构上,而是在生物上。
第二,蛋白的相互作用,我认为这一方面的应用不会特别理想。其中一个原因是,蛋白相互作用的数据远远少于蛋白结构本身的数据,因此,对于机器学习来说挑战性很大。
事实上,这个问题和蛋白结构本身是很不一样的问题。目前我们组何飞博士和我们系的段晔教授正在进行合作,用图卷积、图像处理、点云等方法来探索蛋白相互作用,这个问题在短期内难以解决。
更困难的是分子动力学问题,这就是颜宁教授所提到的。
我在读博时,导师让我研究如何对分子动力学做的非常快,能够更大尺度迭代。这个问题花费了我大量时间,但是没有成功。
机器学习解决分子动力学的问题离我们非常遥远,我们也进行了一些简单的探索。吉林大学韩葳葳教授组一个访问学生朱镜璇与我们组的王珏鑫博士目前进行了一些工作,用这些所谓Neural relational inference——一种图神经网络的方式,进行了分子动力学过程的模拟实验。
我们可以看到,所谓长程作用的变构效应是能够被预测的,但是这离分子动力学大幅度加速还差得很远,不过通过这个过程,
我们发现传统动力学背后的驱动变量数维度很低。因此,我们认为从理论上来说大幅度加速是有可能的,但是需要很漫长的道路去探索。
黄昆:下一个问题,关于对结构生物学的影响 ,哪些方向能受益而加速突破?哪些方向会受影响而淡出?结构生物学的研究能够怎样帮助AlphaFold2改进?我们想请许锦波教授来评论一下。
许锦波:用计算的方法来做蛋白质结构预测,我觉得影响会越来越大。拿解结构来说,我不认为解结构的人在未来会被抛弃。现在来预测的数据相对来说比较简单,比如预测单链。但是单链有时候也无法准确预测,目前仅有60%的预测比较好。但如果仅仅简单的解结构,以后可以直接用软件去解决。
同时,AlphaFold2可以用来提高效率,便于研究者专注于研究结构、功能。做单链的蛋白质结构预测,这方面的人会变少。
但是软件不是万能的,很多问题依旧无法用软件解决,毕竟还有40%的蛋白质的结构预测不是非常准确。 且现在效率也存在问题。当下,我们还不明确AlphaFold2如何处理数据,会不会开源等,目前看来可能性不大。所以,至少在学术界需要一个与之相竞争的软件,不能垄断。
因此,在结构预测这个方向,目前还有许多问题值得研究,并不会造成所有人失业。
当然,可能会有较多的人转向其他相关问题的研究。就拿计算结构生物学来说,可研究的问题还是很多,比如说两个蛋白、多个蛋白如何结合、蛋白质配体相互作用、蛋白质制药等发展比较快。因为能比较准确地拿到结构,这些方向的未来发展会比较快。
另一方面,解结构的人对我们从事计算研究的人员信任程度也会提升,以前我们做出来的结构可能对其他研究人员来说用处不大,但是软件质量提升后,他们会慢慢喜欢用我们这些软件预测出来的数据,便于他们研究蛋白质及功能。
张阳:我觉得AlphaFold2的成功,并不会让很多人转行或者受影响而淡出。
它的成功首先会刺激和促进蛋白质结构预测领域整体精度的提高。对结构生物学来讲,高精度的蛋白质结构预测会帮助很多结构生物学家更快更好地开展他们的研究工作。
比如X光衍射实验,这个实验很重要的一步是做分子置换来确定X光衍射的相位,而成功的分子置换要求有精确的初始结构模型。如果计算机能够快速准确预测蛋白质地初始模型,这会大大提高X光衍射实验的效率。
对于冷冻电镜的实验,好的初始模型有利于蛋白质构型和电子密度图的正确叠加,因而有利于下一步地蛋白结构的优化。从这些方面来讲,精确地结构预测对结构生物学不是一个替代的问题,它们可以相互促进。
好的蛋白质结构预测算法可以大幅度提高传统结构生物学实验的精度和速度。做结构生物学的科学家其目的并不只是解结构,他们只是把结构当成工具,来了解蛋白质有什么样的功能、在细胞运行过程中有什么生物学的意义。
所以从这方面来讲,AlphaFold2不可能让人们失业,或者淡出自己的行业。
黄昆:如果AlphaFold2不开源,学术界有没有成立开源组织的计划?工业界一些大公司在算法和算力方面都占有绝对优势,那么学术研究前进的方向在哪里?对于高校中的AI研究人员有什么建议?对于生物研究人员有什么建议?工业界一些大公司在算法和算力方面都占有绝对优势,对整个学术界的影响会是什么?如何“摆正”学术界和工业界的关系?
张阳:第一,如果AlphaFold2不开源,学术界有没有成立开源组织的计划?
按照谷歌以往的惯例(比如alphaGo和alphaFold),我不相信Google DeepMind会分享他们的源代码,甚至建立共享服务器。但是,我相信学术界很快就会开发出新的替代品。我说的替代品并不是做一个和谷歌AlphaFold2一模一样的软件。虽然谷歌提出了一些新的算法,但是,替代品并不是完全按照谷歌的新算法,可能会出现新的不同地算法来解决同样的问题。
谷歌的主要贡献不是算法或者技术上,我觉得他们这次成功的一个主要贡献是在于证明蛋白质结构预测这个问题可以解决。
这并不是一个简单的问题。做过蛋白质结构预测的人都知道,蛋白质结构是由序列决定的。但是结构和序列的关系非常复杂。有些结构长得非常奇怪,奇怪到你会怀疑这个结构有没有物理的道理,会不会是大自然的一次巧合的怪胎,或者说会不会是物理学上的确定唯一的解。
在这次CASP14中,有些蛋白质相互缠绕,长的非常奇怪,结果AlphaFold2都可以正确的预测---至少在Fold level是正确的。这在概念上是一个重要的突破,一件相当重要的成就。当我们解决一个问题时,预先知道这个问题有答案和不知道这个问题有答案,那解决的难度是不同的。所以,在这个问题上,谷歌是有贡献的。
这个贡献和CASP13有相似的效应。CASP13之前,我们很多人都知道深度学习对蛋白质结构预测有帮助。但是只有在CASP13之后,世界才开始关注深度学习对蛋白质结构预测这一领域的影响,这是因为谷歌把这个结果显示给大家,让大家觉得原来机器学习有如此大的威力。
回到你的问题,我相信学术界应该很快让这项技术开源使用,帮助整体生物医学以及公众健康研究的发展。
第二个问题,工业界一些大公司在算法和算力方面都占有绝对优势,那么学术研究前进的方向在哪里?对于高校中的AI研究人员有什么建议?对于生物研究人员有什么建议?
刚才谈到,AlphaFold2接近解决了单结构域蛋白质结构预测的问题。但是,这只是问题的一个方面,还有很多未知的问题需要解决。
例如,蛋白质折叠的动力学问题,纯粹用深度学习,目前似乎没办法解决,因为我们在PDB库中看到都是蛋白质折叠到最后的稳定结构,它不能提供大量的样本供计算机来学习蛋白质折叠的中间过程。所以,蛋白质折叠的物理学规律,蛋白质和蛋白质之间相互作用等等,都是和蛋白质结构预测相关的,亟待解决的未知问题。
在CASP会议最后一天,DeepMind的CEO Hassabis,提到一个尝试,我觉得非常有趣。
大家知道,在AlphaGo的围棋游戏软件开发中,他们有两个版本。第一个版本是通过从人类十几万张棋谱学习怎么下棋,这是和李世石比赛的那个版本。第二个版本叫做AlphaGo Zero,它完全抛弃人类的棋谱,直接从围棋的规则出发进行自我学习。第二个版本比第一个版本要强很多。
Hassabis提到在准备AlphaFold2的时候,他们也试用了这个想法,试图不用PDB数据库当中人类解析的结构来学习蛋白质结构预测,而是从基本的物理规律出发进行自我学习探索。他们似乎取得了一定进展,但是与AlphaFold还有一定距离。
我认为这是非常有意义的尝试,可能代表下一步的研究发展方向。这类似于要对AlphaGo Zero输入围棋的规则,我们要对机器学习网络输入蛋白质折叠的物理规则,但是蛋白质折叠的规则目前尚不明晰。
如果Alphafold Zero能够做这件事,我们可能就真正学到了蛋白质折叠的物理规律,这将一个更加令人兴奋的成就,远比现在的AlphaFold2更加令人兴奋。
另一方面来讲,它甚至可以让我们预测出我们原先从未见过的蛋白质——这些蛋白质的结构不是我们数据库里面已经解构的,这给人类设计自然界从来没有产生过的,全新的蛋白提供重要的可能性。
如果有这样一个AlphaFold Zero的实现,也会在蛋白质设计或者蛋白质药物设计领域产生巨大的影响。
您的最后一个问题,工业界一些大公司在算法和算力方面都占有绝对优势,对整个学术界的影响会是什么?如何“摆正”学术界和工业界的关系?
这是一个重要问题。我觉得工业界对解决工程问题的确有它独有的优势,可以集中人力和财力攻关一件事情。学术界是对科学更加感兴趣,就是不仅要知道问题如何解决,还要知道为什么要这样解决,所谓知其然知其所以然。
就蛋白质结构预测来讲,虽然谷歌用深度学习,’暴力’地解决了这个问题的工程学方面,但是科学上未知的问题还很多。
我们都知道,蛋白质结构预测可以分成从头预测和同源模型预测,但是从头预测远没有基于模板的预测精准。在早期CASP比赛时,每一次都会有一些科学家,比如Cornell大学的Scheraga教授等,坚持不用模板,只用物理的办法来求解这个问题。当然,他们的成绩或许不理想,但我觉得这是一种对科学的追求精神,值得尊重,这也是学界解决问题的科学态度。
总体来讲,我很高兴看到谷歌对这个问题的成就。但是学术界应该放开心态,接纳利用这个成果,来帮助我们解决更重要的科学上的问题。AlphaFold2并不是末日,而是开始。
许锦波:学术界和产业界的矛盾在计算机系更加普遍,很多计算机系的研究都要落后于大公司。
大公司普遍在人力和资源上要比学校强很多,大公司可以招聘到很多顶尖人才长时间做研究,而学校教授团队都是一些刚刚入门的学生,创新成果产出上学校现在总体上落后于大公司。
但学术机构也不是完全处于下风,深度学习领域的三巨头都是来自于学校,在学校里坚持做研究,才一点点取得成功。但开端之后,新的模型、新的算法又都是产业界走在前面,例如DeepMind。现在的机器学习领域,产业界影响肯定更大一些。
学校也有自己的好处,例如思想上比较自由,可以去想、去做风险很高,别人还没有涉及的纯学术问题,将许多问题率先从概念角度理清。
我觉得,学者不应该和大公司在产业上硬碰硬,两者在科学研究和产业转化上应该进行互补。
黄昆:这些矛盾和我们AI研究比赛和试验方向的评价机制也有很大关系,一味追求准确率就是在和产业界竞争。另一方面,不考虑算力的情况下进行准确率对比机制,也导致很多有潜力的算法被提早排除。那些新的算法、新的理论在初始阶段,算力还有限的情况下,精准度也不高,可能更需要学术界去关注。
许东:工业界并没有和学术界进行全方面PK。
以我们生物信息学为例,目前研究的算法问题有成百上千个,里面产业界只研究和涉及其中的几个。现在看到产业界在蛋白质结构预测这个成果很轰动,但其他像RNA三级结构之类能不能用深度学习解决的学术问题,产业界还完全没有涉及。
许多问题并不像蛋白结构这么大,产业界投入产出比也不明显,学术界做这类问题就非常适合。
黄昆:人工智能对基础科研的辅助作用,对于中国生物医药产业的追赶甚至赶超有没有一定的启示?
张阳:在医药研发过程中,前期主要的一部分工作就是找到靶蛋白,之后设计新的化合物或其他分子来调节靶蛋白的功能。其中,了解靶蛋白的原子结构,对靶蛋白地寻找以及新化合物地设计,都很重要。
比如,我们的蛋白质结构预测软件I-TASSER就已经被多家美国前十的医药公司购买,他们购买I-TASSER地目的,就是用它在预测各种靶蛋白的空间结构。现在AlphaFold2在结构预测方面的巨大进展,应该使得医药公司对几乎所有的靶蛋白都能够进行比较精确的结构预测,这是AlphaFold2对药物产业的一个直接的影响。
在药物研发过程中,另外一个重点就是了解候选药物分子和靶蛋白的相互作用关系。这还需要新的AI技术去突破,可能也是包括谷歌在内的产业界和学术界未来研究的新目标。
所以,深度学习未来肯定会进一步改变传统药物的研发过程,这种改变会是革命性的。
许东:我也简单举几个例子。像癌症里面的癌细胞蛋白变异,过去这种变异研究都是从序列出发。未来如果AI在结构预测的非常准确,就可以用于大规模的癌细胞蛋白变异预测,理解癌症,进行药物开发。
其次,小分子药物设计,像研发新冠病毒的小分子药物,这种病毒蛋白或细菌蛋白,变异往往非常多,AI结构预测如果也同样很精准,就能更容易找到新小分子药物对不同变异都有效果。这些都是很实在的应用。
黄昆:一个全新的氨基酸序列,怎样评判AI预测的结构是不是靠谱?这种没有标准答案的新结构是否可以用能量稳定性评价质量?
许东:这种结构评价主要有两种情况,第一种是将预测结果和真实结构做比对,第二种是不知道结构,评估预测结果是否可靠。
第一种情况,现在像GDT打分这种评价方式,还非常粗犷。
我认为终极的评估还需要考虑更多,例如比对分子上的氢键是否差异或错误,这次的AlphaFold2肯定还达不到试验要求的高精度要求。其实过去的CASP就很难实现高精度,我觉得这次的分析肯定也不是很透彻。
第二种情况,不知道之前结果,我觉得DeepMind这次做的还比较好,用Transformer的方式,直接给出一个打分,这非常有价值。
黄昆:利用“分子动力学+AI”加速模拟和利用“Knowledge+AI”直接预测结构和活性,这两种方式哪种更有潜力?
许锦波:我觉得两种方法并不是对立,更趋向于互补的关系。
如果只要简单的预测分子结构,肯定knowledge+AI更有效,它更适合结构预测。
但knowledge+AI方法也有短处,本身就是用结构库里的数据训练出来的,而结构库的大部分结构都是通过X单晶衍射解出的,所以AI预测肯定会更适用于静态结构,动态结构效果就会比较差。
假如希望研究AI+分子动力学的方向,可以在动态结构预测方向进行尝试,例如预测蛋白质动态行为,或者做模拟和代码的动态分析。两种方法都有自己更擅长的方向。
黄昆:以X光衍射成像的经验来看,数据的预处理非常重要,对最后AI训练结果影响也非常大,那么对端到端的预测影响有多大?
许锦波:以我的经验来看,数据处理是非常重要的,肯定需要花费大量的精力在数据库建设和完善上。
现在的结构数据库样本量还比较小,但肯定也需要进行处理。因为里面一部分氨基酸可能没有坐标、是残缺的,许多数据的来源也不太一样,包括NMR、冷冻电镜、 X-ray。
这次AlphaFold就应用了一个很大的宏基因数据组,需要花很多时间去处理里面的数据。因为同源序列就是来自于这些序列数据库,如果预处理过程中,同源序列都找的不好,肯定会影响最后预测结果,端到端的数据处理同样也需要花很多精力和时间。
黄昆:刚才许教授说到,在生物学里面还有几百个问题都需要应用机器学习,那么除了这次的蛋白质折叠,DeepMind还在布局哪些其他生物技术方向?
许东:DeepMind这样的AI技术在许多生物医学领域都进行了尝试,然而,应用在其他的方向其实并不容易,迄今为止还没有太多成功案例。
从计算机角度来看,蛋白质结构预测,是一个已经被定义非常清楚的问题,虽然复杂,但还是属于弱人工智能问题。
而辅助诊断等其他场景,属于强人工智能问题,对于AI还有很多困难,DeepMind并不是没有做这些的方向,而仅仅是还没有取得很大成功。
补充提问:结构只占序列的不到1/1000,今后有了序列很快就可以拿到结构之后,对于依赖蛋白质相互作用网络的癌症和中医药等,有什么影响?
许东:我觉得帮助会比较大的。当然用蛋白质结构来预测蛋白质相互作用网络现在并不靠谱,但不少蛋白之间我们知道它们有相互作用,可以应用它们各自的结构做docking,得到相互作用的结构模式,会对促进理解癌症及其相关药物的开发。
对于中医我个人很感兴趣,许多中草药的基因组现在被测序了,但其中绝大多数蛋白没有被研究,蛋白质结构预测会帮助我们理解这些蛋白的功能,助力对中草药的药理研究。雷锋网