过去,一个博士生直到毕业,恐怕并未见过蛋白质设计出来的样子--需要一段一段敲掉某些天然蛋白质片段,再人工设计、拼补上去。现在科研人员通过AI模型一次性提交几十个蛋白质设计需求,几个小时后便马上收到一份设计结果和分析报告。生命科学的下一个时代,似乎来了。
ChatGPT引发的新一轮AI浪潮,正在席卷生命科学界。
2023年初,ChatGPT大火。继去年11月30日上线第5天用户获增100万,如今短短两个月时间,ChatGPT日活用户已超1亿,成为历史上增长最快的消费级应用程序。直到今天,与之相关的讨论仍层出不穷。
伴随着ChatGPT的火热,国内市场也很难平静。
百度、阿里、腾讯、网易、京东、360、字节等耳熟能详的大厂接连入局,一度将“AI大模型”推向主流;不少小型企业借助这一概念抬高股价,就连求职榜上的算法、NLP、AIGC等相关岗位,也涌入了一波又一波的年轻人。
ChatGPT再次将AI技术推向幕前,最令人惊喜的莫过于生成式AI与生命科学的深度融合。
近日,国内AI公司天壤智能发布了基于扩散的生成模型TRDiffusion,这是一种蛋白质设计的新方法。
TRDiffusion从零开始创造,生成全新的蛋白质结构,而非自然界中已经存在的天然蛋白质。在相同计算资源配置和时间内,TRDiffusion完成的设计数量提升了2倍以上,设计结果与之前方法的结果表现出更强的多样性。
实际上,早在2022年9月,天壤就上线了蛋白质工作台xCREATOR,实现“一键设计满足描述的蛋白质”等需求。
“相比较而言,新模型将蛋白质设计周期从两天缩减为几小时,改变了过去‘延迟满足’的设计模式。”
天壤创始人,CEO薛贵荣对雷峰网&《医健AI掘金志》表示,“换句话说,一个分秒必争的蛋白质设计时代正在悄悄拉开帷幕。”
蛋白质是一种含有特定氨基酸序列的分子,因其空间结构的不同,决定了生物学功能的差异。
因此,当天然蛋白结构功能,不能满足工业或医疗应用需求时,想要得到特定的功能蛋白,就需要对其结构进行设计。
然而,自20世纪80年代以来,蛋白质设计却一直受限于人类对蛋白质折叠的理解不足而停滞不前。
苗洪江来自天壤XLab,是该实验室的负责人。
他表示,蛋白质设计最早出现在20世纪80年代,共经历三个阶段:
第一代蛋白质设计通过简单化学原理指导二级结构片段的组装。
第二代蛋白质设计加入了专家经验,通过序列-结构关系指导结构片段组装。
第三代有了明显突破,一方面借助更大的天然蛋白质数据库增加结构片段多样性,同时借助从已知结构中终结的物理及知识能量函数,寻找能量最小的目标蛋白质。
苗洪江
但总体来说,前三代设计方法都存在极大限制,比如过度依赖专家经验或者天然蛋白质。直到21世纪,随着蛋白质三维结构数据的快速增长,尤其是2020年底,AlphaFold2在高精度蛋白质结构预测上取得了革命性进展,获得了蛋白质序列与结构之间的高纬关联,以AI主导的蛋白质设计也随之爆发。
正如深圳湾实验室周耀旗教授所言,“在后AlphaFold时代,大家自然而然地想要解决一个实用的反问题:根据某个功能的结构,设计出相应的、能够折叠成这样结构的蛋白质序列。现在,几乎每隔一小段时间就有一篇AI蛋白质设计的预印论文出现。”
2022年,AIGC绘画爆火,普通人只要用语言给出描述、或者几个关键词,就可以用AI程序生成一张媲美专业画师的作品。
与此同时,AIGC背后的关键技术--“扩散模型”也成功出圈,一度启发了计算生物学家。
2022年12月1日,蛋白质设计领域的领军人物David Baker、波士顿的蛋白质设计公司Generate Biomedicines,同天宣布“将AI绘画领域的扩散模型融入蛋白质设计中”。
然而问题随之而来,“基于扩散的蛋白质生成模型”究竟有何优势?
据苗洪江介绍,“相比其它模型,基于扩散的生成模型更接近人的思维模式,也是AIGC拥有开放性创造力的原因之一。其工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转噪声过程来学习恢复数据。”
通俗来讲,在环境中,气体分子会高浓度区域扩散到低浓度区域。这一过程也类似噪声逐步扩散,最终导致声场充满噪音。如果这一原理逆用,则是不断“去噪”,露出事物“真面目”的过程:
首先,生成一张充满大量噪声的图片;
再基于 AI 能力,一边猜测哪些对于最终的图像而言是“噪点”,将其去除,那么剩下的便是所需的“信息”;
通过迭代,在噪声中反复提取出“信息”,最终生成被指定的图片。
事实上,天壤此次带来的TRDiffusion模型,正是采用的扩散模型。
苗洪江进一步介绍,“当TRDiffusion模型生成蛋白质时,是将蛋白质中每个残基的主链结构,看成可以自由移动的刚体,生成结构的初始坐标为随机噪声。再通过‘去噪模型’,逐步地将随机分布的残基,移动及组装成合理的蛋白质三维结构。”
天壤TRDiffusion的原理图示:不断去噪,设计出新的蛋白质
值得一提的是,蛋白质设计是结构预测的逆向问题。有人形容道,“两者像是「序列——结构」这道题的正反求解。已知序列、求解三维结构,是结构预测;设定某个三维结构、求解序列,便是蛋白质设计。”
因此,此前天壤自研的蛋白质结构预测模型TRFold,也顺势被TRDiffusion二次利用。
苗洪江解释道,“TRDiffusion中的‘去噪模型’,继承了结构预测模型TRFold的主体网络结构,并利用TRFold权重作为初始化,满足空间旋转平移等不变性。”
目前测试结果显示,在相同计算资源配置和时间内,TRDiffusion完成的设计数量较之前模型提升了2倍以上,设计结果与之前方法的结果表现出很强的多样性,比如自由设计、复合体设计、对称性设计、局部多样性优化、功能蛋白质设计、结合配体设计等设计需求,更能针对用户设定的目标蛋白质局部或整体结构、蛋白质分类、种属及功能标注等进行调控和设计。
天壤 TRDiffusion 生成的全新的蛋白质结构
据苗洪江介绍,该模型将在2023年2月下旬上线蛋白质工作台xCREATOR。届时,用户只需在平台输入目标蛋白质的简单描述,如序列长度、结构对称性、目标功能motif、结合配体结构、化学计量等,即可“一键生成”满足描述的蛋白质。
实际上,在2023年当下这个时间点,蛋白质设计领域早已暗潮汹涌。
早在去年年底,国外就有三家公司竞相发布了蛋白质设计的新模型。
如前文所述,2022年12月初,华盛顿大学David Baker团队发布了RFDiffusion,用扩散模型设计出多种与天然蛋白质截然不同的全新单链蛋白质及复合体,目前已制造出一种可以与甲状旁腺激素结合的全新蛋白质。
据悉,RFDiffusion也可向多个方向扩展应用,比如该技术最近已扩展到核酸和蛋白质-核酸复合体,后续也将也扩展到设计小分子结合蛋白。
同日,由生命科学顶级风投Flagship Pioneering孵化的蛋白质设计公司Generate Biomedicines,发布扩散蛋白生成模型Chroma,可根据预设要求设计蛋白质序列和结构。
2022年1月,该公司曾一举拿下自Amgen(安进)的5个订单,预付款约5千万美元,潜在合约价值超19亿美元。公开资料显示,5个靶标全部用于开发蛋白疗法,预计生产达百万量级,并透露安进将参与Generate的新一轮融资。
更为重要的是,波士顿拥有全球闻名的医疗机构,从综合性医院、肿瘤专科医院到儿童医院,以及世界Top20制药公司,在医疗集聚方面有着巨大成就。而这层背景,或将助推Generate抢占市场先机。
在蛋白质设计领域,也不乏众多后起之秀。
其中Meta公司的ESM2、加州伯克利的一家初创公司Profluent的ProGen,则是仿造“ChatGPT”背后的大型语言模型(LLM),相继推出了蛋白质序列预训练大模型,实现可编程的蛋白质从头设计。对此,业内众说纷纭,乐观派称,“这项新技术可能会‘超越诺奖’--比2018年的定向进化蛋白设计技术更加强大。”
薛贵荣
天壤创始人,CEO薛贵荣对此颇有感触,“尽管这些公司的技术路径不尽相同,但这些模型和算法的集中爆发,意味着我们已经迈入了一个可编程的生物学新时代,最快年底会有一大波蛋白质设计被验证。”
同时他也认为,如今蛋白质设计浪潮兴起,至少指出了三个可能:
一、沿用天然蛋白质设计的老路已经没有太大兴奋感,从头生成人工蛋白的AI系统已将蛋白质设计变得“可控化”、“批量化”、“广泛化”;
二、以蛋白质设计来讲,不管是在医疗应用、食品生产、工业应用、环境保护、可再生资源还是其他领域,都具备有非常广阔的应用场景,背后的商业价值正在被更多人看到;
三、ChatGPT作为第一个消费级AI爆款,是公众第一次亲身体验现代人工智能的强大功能,随着ChatGPT应用的增长、甚至“BioGPT”、“ProtGPT”的出现,人们会对AI产生越来越多的信任。
以上观点不难看出,对于国内从业者而言,借助风口深扎技术,为迎接未来工业需求做准备,显然已经成为自身发展过程中的重要命题。
与此同时,生成式AI技术的科研和工程实施还处于发展初期,除基座模型的角逐外,能否有更多公司参与到应用级创新,同样是决定生态繁荣的重要因素。
实际上,天壤并非初涉生命科学领域。早在2019年,旗下天壤XLab成立,专注于IT+BT融合发展,旨在将蛋白质开发从“机会性游戏”,转变为高确定性的、可预测的“工业化流程”,满足医疗、材料、能源和食品等领域对功能蛋白质的需求。
2022年,公司技术数项成果并出,陆续建成TRFold(单链结构预测,有MSA)、TRFold-Single(单链结构预测,无MSA)、TRComplex(复合体结构预测)、TRDesign(蛋白质设计)四大核心能力,并在去年9月推出国内首个蛋白质设计工作台xCREATOR。
至此,一条兼具“蛋白质结构预测+设计+开放平台”技术闭环搭建完成。
一定程度上说,在天壤此次技术升级之后,国内蛋白质设计市场的红利将进一步放大,后续将涌现出更多的“鲶鱼”,引发全社会对生命科学产业的关注。
人类发现蛋白质的时间不过两百年,大自然却花了上亿年形成蛋白质进化规律。直到今天,人们不能完全翻译这些规律,但仍然期待有一天可以通过发明强大AI工具,并对它发出设计蛋白质的指令。
这种期待是美好的,蛋白质设计前景也是广阔的,但当前,这一赛道尚处于孕育探索阶段。
就技术研发和应用角度考量,如何从模型生成的大量符合需求的蛋白质中筛选出最优的结构、如何评价这些蛋白质的功能和性质、是否有可能从模型的角度自动化进行筛选,仍然值得进一步讨论。
正如苗洪江所说,“和AI绘画、AI聊天不同,蛋白质设计的本质是科学创新,比如要对设计蛋白的稳定性、亲和力、寡聚性等特性进行预测及优化,否则就是‘伪蛋白’。”
实际上,针对这一问题,天壤的一大解决思路是与高校合作,“在实际项目过程中发现模型和平台存在的问题”。
去年9月,天壤公布蛋白质设计工作台——xCREATOR,其设计初衷,即解决跨领域技术门槛高、工作流程碎片化的问题,目标是在同个工作台上一站式地完成全部蛋白质设计项目。
目前,xCREATOR工作台已集成了市面上优秀的算法,包括天壤XLab自研的算法与所有外部开源和合作伙伴的算法。尤为重要的是,这款平台供高国内外高校师生免费使用,一方面能够提供更开放的学术环境,为前沿项目提供技术支撑;另一方面,对于尚未建设湿实验室的天壤来说,来自各大高校的真实实验数据反馈,也成为天壤升级蛋白质设计算法的重要基础。
薛贵荣举了个例子,“过去博士生做蛋白质设计,需要一段一段敲掉某些片段,再人工设计拼补上去,等到毕业了还没有见过蛋白质设计出来的样子。相比较而言,现在学生可以一次性提交几十个蛋白质设计需求,几个小时后马上收到一份蛋白质设计结果和分析报告。”
站在平台的角度上,天壤越来越明确提供工具的角色定位,追求开放化的思路。
薛贵荣提到,未来天壤要两条腿走路,重点打造干湿一体化实验室,从计算平台走进实验平台,真正从产业端的角度推动前端的蛋白质设计工作。
据悉,目前天壤XLab团队从头设计了适用于多种疾病的人工蛋白质候选药物,如新冠刺突蛋白结合剂,能够有效阻止刺突蛋白和人体ACE2蛋白结合;以及IL-2类似物,能够激活特定淋巴细胞,同时避免当前IL-2类药物毒性;可用于捕捉和封存二氧化碳的碳酸酐酶,相比于天然碳酸酐酶,其长度仅为天然碳酸酐酶的1/3左右,稳定性更高,成本低廉便于工业应用。目前,这些蛋白的计算设计工作都已完成,正在推进实验检验。
这似乎又开始了让人熟悉的剧情。场景的吸引力、模式的吸引力,本质上,都是内容和技术的原始创新。
“当实现蛋白质设计日吞吐量达到上千上万,甚至更多时,蛋白质设计将彻底告别‘束手束脚’的日子,一个真正的生命科学时代才算到来。”
| 生物计算“奥赛”冠军论道:当生命科学遇上史诗级AI,何去何从?
日前结束的第41届JP摩根医疗健康大会上,科技公司Nvidia的报告指出,“或许很快,基于AlphaFold2精准解析蛋白质三维结构,再加上能从头生成人工蛋白质设计技术,就会给生物学领域带来一场新的变革。”
为了更加深入、系统地讨论生命科学技术的落地,2月23日(本周四20:00),我们邀请了CASP15四支冠军团队,论道:《当生命科学遇上史诗级AI,何去何从?》
智峪生科董事长,CEO王晟担任主持、密歇根大学计算医学及生物信息学系郑伟、浙江工业大学信息工程学院张贵军教授、江苏理工学院生物信息与医药工程研究所常珊教授、智峪生科CTO熊鹏共同参与讨论。
读者可扫描文章底部海报的二维码,添加策划人吴彤微信(微信号:icedagunaing),备注“姓名+职位”,后续我们会邀请您进入专家社群,并将您的问题收集、汇总,反馈给参会嘉宾,在讨论环节进行解答。
关于GAIR Live
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
雷峰网雷峰网(公众号:雷峰网)