AlphaFold蛋白质结构数据库向公众免费开放一年后,上周,它再次刷新了我们对它的期待:已预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。
此次数据库更新的蛋白质三维结构涵盖了涵盖了植物、细菌、动物和其他微生物等多类别,并且能通过谷歌云公共数据集下载。
在可预测的2.14亿蛋白质结构中,约35%的结构已达到了实验手段获取的结构精度,80%的结构可靠性足以用于多项后续分析。
而且,以上数据将继续免费向公众开放,DeepMind的CEO Hassabis博士说,“这是我们送给人类的礼物。”
AlphaFold 2横空出世时的热烈场景重现,再次在国内外的社交媒体上引发热议。
作为“圈内人”的生命科学领域研究者们,又是如何看待AlphaFold此次取得的成果?
美国密苏里大学哥伦比亚分校Shumaker讲座教授许东向雷峰网(公众号:雷峰网)《医健AI掘金志》介绍,DeepMind此次发布的成果中,依旧沿用此前的AlphaFold工具,在技术上并无大的创新。
但其预测出的2.14亿个蛋白质结构将起到非常大的作用,借助这些蛋白质结构,生物学领域的诸多问题可以从全新的角度进行解答。
许东教授是AAAS和AIMBE会士,曾因为蛋白结构预测的工作获得2001年美国“最杰出研究与开发100人奖励(国际2001R&D 100 Award)”。
从1997年开始,许东教授就开始了蛋白质结构预测这方面的研究。
“我们过去做蛋白质结构预测只能通过序列对比的方式进行,那时候大部分蛋白质的结构都还没有发现,预测的准确率也不高。AlphaFold出现以后蛋白质结构预测的相关研究都可以再上一个新台阶。”
通过挖掘已发现的两亿多蛋白质结构数据观察蛋白质整体折叠的分布规律,可以更清晰地认识蛋白质的进化、功能和分布。
但是,这两亿多的蛋白质结构数据可以全部应用于研究中吗?
深圳湾实验室系统与物理生物学研究所副所长周耀旗教授,同样进行了多年蛋白质结构预测的研究。
在AlphaFold出现之前,他和他的团队就发展了神经网络回归预测蛋白质真实二面角的方法,为端对端的蛋白质结构预测提供了基础。
周耀旗指出了此次公布的海量数据背后隐存的问题:AlphaFold蛋白质结构数据库中的数据虽然庞大,但其中部分蛋白质由于同源序列较少,AlphaFold并不能准确地进行预测,仍需补充更多的进化信息。
此外,有些蛋白质本身结构不稳定,需要靠与其它分子结合来稳定化,其结构也难以准确预测。
“AlphaFold使用信任度量pLDDT描述各个氨基酸在结构内的可信度,当pLDDT指标过低时,蛋白质结构就是不可用的。”
许东也指出,此次AlphaFold预测出的蛋白质结构中有部分结果结构不稳定,不能应用于研究中;
此外,当两个结构在序列上变化较小时,例如蛋白质中一两个氨基酸发生变异的情况,AlphaFold无法区分其差异。
中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长潘毅教授也有类似的顾虑。
计算机背景出身的他表示,“人工智能有一个学习的过程,要通过大量的训练来提升其准确性。如果AlphaFold预测的蛋白质结构是不常见的结构,AI无法通过已有的知识学习到这个结构,预测时就容易产生偏差。”
潘毅向《医健AI掘金志》介绍,AI是一个能够利用现有的知识预测将来的工具,如果连现有的知识都是缺失状态,自然无法预测新结构。
“除非把世界上所有的蛋白质结构都预测并验证过了,否则是不可能达到100%的准确率。”
虽然对部分蛋白质结构的预测不完全准确,但AlphaFold蛋白质结构数据库在开放数据的同时也提供了相应结构预测的准确度报告,为使用者提供参考。
数量庞大的蛋白质结构为生命科学研究带来的影响仍是毋庸置疑,尤其是在结构生物学的领域。
“已预测出的蛋白质结构,可以更好地帮助研究者解析人体蛋白质的功能,”加拿大蒙特利尔大学MILA实验室教授唐建表示,“但是对药物研发的影响有限。”
唐建如今正集中精力研究图表示学习在新药研发中的应用。
对于AlphaFold给制药行业带来的作用,潘毅的看法却更为积极。
他告诉《医健AI掘金志》,AlphaFold预测出的蛋白质结构对生物制药将有很大的帮助,尤其是在小分子筛选的工作上。
自2020年回国后,潘毅的研究逐渐从理论转向应用,药物研发也是其研究的重点落地方向之一。
他认为,这些已经预测完成的蛋白质结构将为生命科学领域内的研究者们节省颇多精力与资金,可以直接从数据库中查找相应的结构进行研究,不必再自行解析。
总结而言,AlphaFold蛋白质结构数据库中的结构虽然有不足之处,不能全部将其应用于研究中,但数量庞大的蛋白质结构对生命科学各个领域的研究,仍有着不可忽略的意义。
虽然诞生只有只有短短四年的时间,但AlphaFold在蛋白质结构预测上的影响几乎翻天覆地。
2016年,DeepMind公司开发的AlphaGo击败韩国传奇围棋选手李世石后,其先进性与潜力受到认可,DeepMind决定成立团队开始研究“蛋白质折叠问题”。
2018年12月2日,AlphaFold横空出世,在第13届国际蛋白质结构预测竞赛(CASP13)上预测出了43种蛋白质中25种蛋白质的最精确结构,力压其他参赛者取得第一名 (在条目A7D下),其研究团队再次扩大,开始研究创新的新系统。
两年后的2020年11月30日,DeepMind率AlphaFold2再次参赛,在CASP14上一举夺魁,预测结构达到原子精度,中值误差 (RMSD_95) 小于1埃,比次优系统准确3倍,可与实验方法媲美。
CASP的组织者曾表示,AlphaFold2破解了有着50年历史的“蛋白质折叠问题”的重大难题。
2021年7月15日,DeepMind通过一篇Nature论文开源了其基于深度学习神经网络的AlphaFold2模型;
一周后的7月22日,DeepMind再次发表Nature论文,推出AlphaFold蛋白质结构数据库,向公众免费开放人类蛋白质组以及另外20种模式生物的总共超过350000种结构,并且对98.5%的人类蛋白质结构进行了准确预测。
在此之前,科学界解析的蛋白质结构仅仅覆盖了人类蛋白序列17%的氨基酸。
时隔一年,AlphaFold再次引起轰动,它对生物信息学领域的研究历程又将会产生多大的影响?雷峰网