功成名就之后,互联网大佬似乎都有“回报母校”的情结。
例如,马化腾之于深圳大学、马云之于杭州师范大学、刘强东之于宿迁中学、雷军之于武汉大学。
黄铮也是如此。
昨天,黄铮辞任拼多多董事长,宣布投身食品科学和生命科学领域的研究。他表示,此举为拼多多未来十年高速高质量纵深发展探索新空间。
就在一天之后,黄铮就向自己的母校捐了一笔数额不小的科研基金。
雷锋网消息,据21世纪经济报道,3月17日,浙江大学教育基金会和繁星公益基金签署捐赠协议,设立“浙江大学上海高等研究院繁星科学基金”(下称“繁星科学基金”),推动浙江大学在生物、医疗、农业、食品等多领域交叉方向展开基础研究及前沿探索。
据了解,捐赠方繁星公益基金由拼多多创始人、浙江大学校友黄峥及拼多多创始团队发起并捐赠成立。
作为第一期资助,繁星公益基金将在未来3-5年向浙江大学教育基金会捐助1亿美元,用于“计算+生物医疗”、“计算+农业食品”和“先进计算”三个创新实验室的科学研究项目。
黄铮为什么会选择这三个方向?他昨天的股东信中就有非常明确的答案。
黄铮在股东信中写到:
如果我们再进一步,深入到蛋白质结构及在人体内的性状的研究,我们是否有可能沿着2016年诺贝尔化学奖获得者的分子机器的道路,进一步研究出蛋白质机器人,可以进入到人的脑部血管进行疏通,避免中风?
蛋白质结构是困扰了学者几十年的世界难题。就在几个月,一项“革命性”的成果问世,或许让黄铮有了进一步挑战这一难题的勇气。
没错,那就是大名鼎鼎的AlphaFold2,出自顶级人工智能公司——DeepMind。
去年12月,DeepMind宣布蛋白质折叠预测问题被其攻破。
此消息一出,立刻登上了Nature杂志封面,标题直接评论为:“它将改变一切!”李飞飞、马斯克等众多大佬纷纷点赞、转发。
随后,《医健AI掘金志》推出一篇《Deepmind被「圈外人」刷屏后,「圈内」科学家是如何评价它的?》。
在这篇文章中,我们与美国密苏里大学哥伦比亚分校Shumaker讲座教授许东教授、印第安纳大学医学院主管数据科学的副院长黄昆教授、AI药物研发公司晶泰科技CEO马健博士进行过深入采访。
借此机会,我们探讨了AlphaFold2解决了什么问题,还有哪些不能解决,以及这项成果在未来生物、医疗领域的前景。
能够匹配人类的水平,甚至超越人类,AlphaFold2肯定有其过人之处。
根据DeepMind在CASP14会议上公布的技术方案,应该有两点。
首先,是注意力机制的引入。
注意力机制的引入,解决了如何更好地从多序列对齐(multiple sequence alignment)数据中提取特征以指导结构预测的问题。
在此之前,较为主流的方案是从多序列对齐数据中提取共进化信息,但DeepMind通过对比发现这种人工设计的特征提取会丢失部分关键信息,而通过引入注意力机制可以较好地解决这一问题。
同时,注意力机制也应用在了迭代更新序列-残基和残基-残基相互作用的过程中,从而以迭代的方式得到更为准确的距离预测与三维结构。
许东是美国密苏里大学哥伦比亚分校Shumaker讲座教授,AAAS和AIMBE会士,曾因为蛋白结构预测的工作获得2001年美国“最杰出研究与开发100人奖励(国际2001R&D 100 Award)”。
许东教授表示,注意力机制确实在蛋白结构预测方面上了一个台阶。
“AlphaFold可以把氨基酸之间的距离整合成三维结构。因为他们的算力很多,两年前他们虽然方法和别人几乎是一样的,预测的距离却准的多,在CASP里做得很好。”
但是,许教授认为,AlphaFold今年真正的创新之处在于利用了注意力机制,可以把氨基酸之间的距离预测问题更为全局、整体的解决,同时对每一对距离的预测可靠性有更好的评价,从而看出什么预测距离更靠谱,让其在蛋白三维结构重建中发挥更大作用。
这么做,就真正把蛋白已知结构进行最大化的应用。
许东教授向雷锋网坦言,此前,自己的团队也思考过,但是那时候采用的是“土一点”的统计方法。
“AlphaFold确实是非常大的创新,这种创新对研究其他问题也有帮助。比如,我们现在就想用类似的思想去做单细胞数据建模的一些研究。
其次,端到端学习的引入。
端到端学习的引入,使得从输入氨基酸序列到输出蛋白质三维结构的过程,可以完全在深度学习的框架内实现,从而使得优化过程可以得到更为直接的误差信号。
而之前的方法往往基于深度学习+传统结构建模工具(例如Rosetta、I-TASSER等)的组合,这样结构建模的误差信号不能直接用于对深度学习模型本身进行更新。
谈及AlphaFold2,几位专家不吝赞美之词。
许东教授表示,“AlphaFold是非常大的成就。不光是蛋白结构或者生物信息学的重大突破,也是科学史上的重大突破。”
从1997年开始,许东教授就开始了蛋白质结构预测这方面的研究。他表示,从防病、治病的角度来看,蛋白质结构变化预测,绝对是非常重要。
“很多疾病都是在蛋白层面出现了问题,例如基因突变造成氨基酸的突变,使得蛋白结构发生变化,不能行使功能。”
现在,许东教授团队现在和范德堡大学Jing-Qiong Kang教授的合作,就在用结构预测来研究癫痫,特别是为什么一些基因突变可以使得几个重要的蛋白结构造成变化,造成其部分功能丧失,致使癫痫发作。
Jing-Qiong Kang教授把预测的结果与实验进行对比,进而理解疾病。
从制药层面来看,更是如此。
现代药物大多的靶点是蛋白,药物的设计几乎都是基于蛋白的结构来进行合理的设计。现在,机器学习能够取得非常好的预测结果,是否会取代实验的蛋白结构发现方法?
许东教授表示,“会取代很大一部分”,尤其是在低分辨率下,特别是用冷冻电子显微镜进行的结构发现可能不如机器学习做的准确。
AI药物研发公司晶泰科技CEO马健博士也向《医健AI掘金志》说到,结构决定性质。在AlphaFold准确的预测的蛋白结构之上,我们可以更准确地预测药物分子和蛋白的相互作用,从源头上提高计算辅助药物发现与设计的准确度。
同时,现在能解出的蛋白质很少,很多关键的蛋白质十几、二十年都难以用实验解析出结构。有了这项技术,研究人员就可以用这些传统上难解出结构的蛋白作为药物靶点、设计新药。
技术将开启一个药物研发和疾病研究的新时代,可以从原子分子层面上帮助理解疾病的作用机理。
同时,与疾病相关的蛋白结构越来越多地被计算解析出来,会提供大量的新靶点,如同给药物发现打开了一道源头的闸门,为药企开发first-in-class药物创造更多新机会。
马健表示,AlphaFold在解决蛋白质折叠预测问题过程中所积累的经验和Know-how,会产生技术溢出的效果,其中先进的思想和理念将进一步在AI药物发现的其他环节和领域带来启发和促进作用。
AlphaFold在CASP14中的表现,被誉为是结构生物学领域的地震,让无数该行业的学者为止兴奋。
然而,也有网友提出了一些不同的声音:利用计算机预测蛋白质结构很早就在做,只不过准确度一直是一个问题。
目前,计算机辅助药物设计,在有蛋白真实单晶体机构的基础上尚且不能做到准确预测,更何况是“接近于实验取得结构”。
马健表示,下一步,在蛋白-蛋白相互作用结构、C端N端结构等领域,AlphaFold需要算得更准。
另外,目前AlphaFold预测的是最接近实验的静态结构,未来在药物研发的应用中,如果能将蛋白和药物结合位置预测的更准,需要把蛋白结构的动态变化考虑进来。
许东教授认为,这件事情需要从两方面来看:
一方面,这确实是非常大的成就。不光是蛋白结构或者生物信息学的重大突破,也是科学史上的重大突破。五十年来,蛋白质折叠一直是生物学的巨大挑战。
另外一方面,总归会有一些“泡沫”,存在一定的局限性。AlphaFold不是把所有问题全部解决。不是光有结构,就能够设计药物。
许东教授认为,AlphaFold可以满足95%以上的理解功能、实验设计等需求,达到了应用的标准。
然而,它并不能总是达到一定的标准。现在,人、植物的蛋白被研究得非常广谱,但是在微生物、病毒的蛋白里还有很多新的fold。
和已知序列和结构相差非常大的情况下,AlphaFold做的不是特别好。
“最新的AlphaFold系统在所有目标中总体得分中位数为92.4 GDT,强调的是中位数,甚至都不是平均数。这就表明,有些蛋白的预测还是做的不太好。”
当然,科研的道路上,聚起希望之火的不止一人。
周耀旗教授、李明教授、许锦波教授、张阳教授、卜东波教授和程建林教授等在这个领域里都做了非常好的工作。
特别是许锦波教授课题组,是真正第一个用深度学习来进行氨基酸距离预测的人,对这个领域起了很大的作用;
密歇根大学张阳教授实验室的服务器很久在CASP自动预测大类里排名第一,得到了广泛使用。
许东教授说到,“所以,大家可能看到是最闪亮的那颗星,但是背后有很多人默默为之奋斗。今天AlphaFold的成就绝对是太多人积淀的结果。”
回到黄铮的这次转型。
据相关人士透露,“繁星公益基金”名称源于文森特•梵高的一句话,“我不知道世间有什么是确定不变的,但我只知道,只要一看到星星,我就会开始做梦。”
这也是黄峥在某一个夏夜,仰头看到夜空里的漫天繁星时闪现的灵感。
历史,何尝不是无数前人灵感迸发瞬间的产物。
PS.关于AI在蛋白质结构预测中的其他问题,读者可阅读《Deepmind被「圈外人」刷屏后,「圈内」科学家是如何评价它的?》雷锋网