雷锋网 AI 科技评论按:在 2016 年和 2017 年,谷歌旗下 DeepMind 团队的研究成果 AlphaGo 可以说是科技界当之无愧的焦点。2016 年,AlphaGo 以出色的表现战胜围棋世界冠军、职业九段棋手李世石,之后和中日韩数十位围棋高手进行快棋对决,连续 60 局无一败绩。2017 年 5 月,AlphaGo 以 3 比 0 的总比分战胜排名世界第一的世界围棋冠军柯洁。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。
但是 DeepMind 团队的最终目的并不是做游戏,他们希望用人工智能方法能帮助人类推动基本科学的进步。近日,团队发现了仅仅基于蛋白质的遗传序列来预测蛋白质的 3D 结构的方法。雷锋网 AI 科技评论编译如下。
今天,我们非常兴奋地与大家分享 DeepMind 在展示人工智能研究如何推动和加速新的科学发现方面的第一个重要里程碑。通过强有力的跨学科方法,DeepMind 汇集了结构生物学、物理学和机器学习领域的专家,应用前沿技术,仅仅基于蛋白质的遗传序列来预测蛋白质的 3D 结构。
我们的系统,AlphaFold,在过去的两年里我们一直在努力研究它,它建立在多年前使用大量基因组数据预测蛋白质结构的研究基础之上。AlphaFold 产生的蛋白质的 3D 模型比之前的任何模型都精确得多,也就是在这一生物学核心挑战上取得了重大进展。
蛋白质折叠问题是什么?
蛋白质是维持生命必不可少的复杂大分子。几乎我们身体的每一项功能——收缩肌肉、感知光线或将食物转化为能量——都可以追溯到一种或多种蛋白质以及它们如何移动和转化。制作这些蛋白质的配方,也就是基因,就编码在我们的 DNA 中。
每种蛋白质可以做什么取决于其独特的三维结构。例如,构成我们免疫系统的抗体蛋白是「Y 形」,类似于独特的钩状物。通过锁定病毒和细菌,抗体蛋白能够检测并标记致病微生物以便消灭它们。类似地,胶原蛋白呈绳索状,它在软骨、韧带、骨骼和皮肤之间传递张力。其他类型的蛋白质包括 CRISPR 和 CAS9,它们能像剪刀一样剪切和粘贴 DNA;抗冻蛋白,其 3D 结构允许它们与冰晶结合并防止生物体冻结;核糖体就像一个程序化的装配线,帮助自己构建蛋白质。
但是仅仅根据蛋白质的基因序列来弄清蛋白质的 3D 形状是一项复杂的任务,科学家们已经为此奋斗了几十年。挑战在于,DNA 只包含有关这种蛋白质的氨基酸残基的序列的信息,这种氨基酸残基形成长链。预测这些长链是如何折叠成复杂的蛋白质 3D 结构就是所谓的「蛋白质折叠问题」。
蛋白质越大,模型就越复杂和困难,因为需要考虑氨基酸之间更多的相互作用。正如列文塔尔的悖论所指出的,在得到正确的 3D 结构之前,需要比宇宙的年龄更长的时间来枚举典型蛋白质所有可能的构型。
蛋白质折叠为什么很重要?
预测蛋白质形状的能力对科学家是有用的,因为理解其在体内的作用对诊断和治疗被认为是由蛋白质的错误折叠引起的疾病是至关重要的,如阿尔茨海默氏症、帕金森氏症、亨廷顿氏症和囊性纤维化。
我们尤其感兴趣它是如何提高我们对身体的理解以及它是如何工作的,这可以使得科学家能够设计出新的、更有效的治疗疾病的方法。我们可以通过模拟和模型获得更多关于蛋白质的形状和它们如何工作的知识,它开辟了药物发现的新潜力,同时也降低了实验相关的成本。这最终可以改善全世界数百万患者的生活质量。
对蛋白质折叠的理解也有助于蛋白质设计,这可以带来许多好处。例如,可以通过蛋白质设计来实现生物可降解酶,从而帮助对付诸如塑料和石油之类的污染物,帮助我们以对环境更友好的方式分解废物。事实上,研究人员已经开始对细菌进行工程改造,以分泌蛋白质,使废物可生物降解并更容易处理。
为了促进对提高预测准确性的最新方法的研究和测量进展,1994 年建立了一个名为 Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction(CASP)的两年一度的全球竞赛,并已成为评估技术的金标准。
AI 是如何带来改变的?
在过去的 50 年中,科学家已经能够使用实验技术,如冷冻电子显微镜、核磁共振或 X 射线晶体学,在实验室中确定蛋白质的形状,但是每种方法都依赖于大量的试验和误差,这可能需要数年时间,并且每个结构花费很多钱。这就是为什么生物学家转向人工智能方法,以替代这一漫长而费力的检测复杂蛋白质的过程。
幸运的是,由于基因测序成本的迅速降低,基因组学领域数据非常丰富。因此,基于基因组数据的深度学习方法在近几年来变得越来越流行。今年我们向 CASP 提交了 AlphaFold,这是近几年我们 DeepMind 对这个问题的研究成果。我们很自豪地成为 CASP 组织者所称的「在预测蛋白质结构的计算方法能力方面的空前进步」的一部分,在入选的团队中排名第一(我们的代号是 A7D)。
我们的团队特别关注从零开始建模目标形状的难题,而不使用以前构建的蛋白质结构作为模板。在预测蛋白质结构的物理性质时,我们获得了很高的精确度,然后使用两种不同的方法来构建全蛋白质结构的预测。
用神经网络预测物理性质
这两种方法都依赖于深层神经网络,这些神经网络被训练后可以从蛋白质的遗传序列预测蛋白质的性质。我们的网络预测的特性是:(a)氨基酸对之间的距离,(b)连接这些氨基酸的化学键之间的角度。第一个进展是评估氨基酸对是否彼此接近的常用技术的进步。
我们训练神经网络来预测蛋白质中每对残基之间距离的独立分布。然后将这些概率组合成一个分数,以估计所构建的蛋白质结构有多精确。我们还训练了一个单独的神经网络,它使用所有距离来估计所构建的结构离正确答案有多近。
构造蛋白质结构预测的新方法
利用这些评分功能,我们能够搜索蛋白质形状,找到符合我们预测的结构。我们的第一个方法建立在结构生物学中常用的技术之上,并且用新的蛋白质片段反复替换蛋白质结构的片段。我们训练一个有生成式的神经网络来发明新的片段,这些片段被用来不断改进所提议的蛋白质结构的评分。
第二种方法通过梯度下降来优化分数,梯度下降是机器学习中常用的数学技术,用于进行小的、递增的改进,从而构建高精度的结构。这种技术应用于整个蛋白质链,而不是在组装之前必须单独折叠的片段,从而降低了预测过程的复杂性。
接下来会发生什么?
我们首次涉足蛋白质折叠的成功,展示了机器学习系统如何能整合各种信息来源,以帮助科学家快速地找到解决复杂问题的创造性解决方案。正如我们已经看到人工智能如何通过像 AlphaGo 和 AlphaZero 这样的系统帮助人们掌握复杂的游戏,我们也同样希望有一天,人工智能的突破也能帮助我们掌握基本的科学问题。
这些早期的蛋白质折叠进展的迹象,证明了人工智能在科学发现中的效用,这是非常令人兴奋的事情。尽管我们在能够对治疗疾病、管理环境等产生量化影响之前还有很多工作要做,但我们知道潜力是巨大的。我们拥有一个专注的团队,致力于研究机器学习如何推动科学进步,我们期待着看到我们的技术可以带来更多的变化。
雷锋网