生命科学领域迎来新故事。
最近的一段时间,很多人都在讨论AI,几乎每一个前沿科技关注者脱口而出,“ChatGPT开启微软谷歌对决”、“中国AI大模型之争”、“英伟达推出核弹级显卡”。
当这些话题凑在一起,AI便沾了一身烟火气。业界借用2007年乔布斯发明iPhone的现象级事件,盛誉这是属于“AI的iPhone时刻”。
不可否认,在这波AI浪潮中,百度抢占先机。
3月16日,百度发布大语言模型产品“文心一言”,李彦宏站台,继ChatGPT后推出全球首个对标产品。一周后,3月23日,李彦宏所创百图生科,发布生命科学大模型驱动的“AI生成蛋白质平台(AIGP,AI Generated Protein)”,同时发布AIGP生态合作计划,旨在将生命系统与AI计算结合,在行业伙伴的加持下,为科研、环保、材料、消费等领域提供解决方案。
相比较而言,国外尽管有Meta、IBM Research、Salesforce Research等公司和机构更早推出生命科学大模型,却仍处于“论文发表”阶段。而AI技术本身就要跟场景密切结合,无论是百度还是百图生科,都在技术落地上更进一步。
百图生科联合创始人兼CEO刘维
百图生科联合创始人兼CEO刘维,在发布会当天对雷峰网(公众号:雷峰网)&《医健AI掘金志》表示:
“这一模型早在百图生科两年前成立时就有酝酿,在当下时间点推出,既来自于这波AI大模型浪潮的推动,同时也说明,百图生科已经积攒了较高的平台化能力,诸如世界最大规模的免疫图谱、全球最快复合物结构预测模型、全新蛋白质药物ImmuBot等等,到了化零为整的发展阶段。”
何谓“AIGP”?
实际上,与之相近的一词,是最近火出圈的“AIGC”(AI Generated Content),即利用人工智能技术来生成内容。AI绘画、AI写作等都属于AIGC的分支。相应地,AIGP,即用AI自动生成蛋白质。
因此,尽管“AI生成类”任务千差万别,但背后的逻辑别无二致—— 大力出奇迹,只要投喂足够的数据,AI就能够表征人类的知识,从而实现从“发现”到“创造”。
因此,尽管过去十年跨模态的生物数据得到了快速的增长,但是在数据的挖掘和应用方面仍然存在着许多挑战和难题。这种速度增长的数据对传统的生物学或者生物信息家来说,已经难以用小工具去分析。
得益于数据、算力、模型本身的充分发展,如今人工智能落地已经进入“大模型”时代。
美国斯坦福大学的权威研究团队,更是将这一类大规模预训练模型形容为“基础模型”(Foundation Models),意味着其会是各种行业智能应用必不可少的大型基础设施。
在NLP、CV等多类任务上,大模型已经展现出碾压性优势,发展生物计算大模型正当时:人体这一多尺度的复杂网络,加上多模态、高噪音的超大规模生物数据,非常需要独有的超大模型来提升研发效果。
因此,百图生科自2020年成立以来,便开发了具有千亿参数的生命科学大模型体系“xTrimo”。
据悉,百图生科生命科学大模型“xTrimo”,全称 Cross-modal Transformer Representation of Interactome and Multi-Omics,面向最难的生命科学问题,是全球首个、也是目前最大的生命科学领域的“超大规模多模态模型体系”。
该大模型从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律,从而破解生命的自然语言——蛋白质。
基于大模型,AI在一系列任务算法上取得了明显的进展,除了更好地完成结构预测等基础任务外,也开始可以根据不同的问题输入,以生成的方式,设计创新的蛋白质,来回答各种生命科学问题。
因此,如果说千亿级参数的ChatGPT掀开了语言生成式人工智能的序幕,那么正在从千亿参数迈向万亿参数的“xTrimo”,则是吹响了冲击诸多生命科学命题的号角。
百图生科CTO宋乐博士
正如百图生科CTO、首席AI科学家宋乐博士表示,“基于大规模预训练模型,正在成为解决问题的一种范式。药物发现等生命科学问题的社会价值和行业价值极高,比起其他任务场景,需要更多企业投身到这个趋势中,实现前沿项目的加速研发。”
能在两年时间内完成千亿参数AI大模型的全部准备工作,对任何公司来说都是一个不小的难题。
对比OpenAI来说,2015年公司成立,足足等了三年才正式推出GPT-1,直到2019年2月,GPT-2版本开启公测阶段,又隔三年才终于通过ChatGPT打响AI大模型。
一定程度上,AI研发需要细水长流,即便是集齐Sam Altman(Y Combinator总裁)、Elon Musk(特斯拉CEO)、Peter Thiel(PayPal联合创始人)、Reid Hoffman(LinkedIn联合创始人)等一众硅谷科技大亨的OpenAI,七年时间才让AI技术的民主化不再是纸上谈兵。
与此同时,OpenAI的爆火再次说明,中国也需要有自主“大模型”,而且在OpenAI等科技巨头的牵制下,AI大模型已经有明确的技术下限。
宋乐表示,“这需要在模型搭建之初,就做好顶层设计工作。主要分为三大块:数据设计、模型设计、训练方法设计。”
一、数据设计
对于AI大模型来说,生成结果的质量如何,取决于灌输了何种质量的数据。因此,AI生成蛋白质的本质问题在于,是否已经到了“输出即用”的程度?
在发布会现场,刘维也举例道,我们能要求AI自动生成一个圆形蛋白质、胡萝卜形蛋白质、甚至是花形蛋白质、但这些蛋白质没有一点实用价值,只是一种技术模拟。换句话说,如果没有大量且高质量的数据做“投喂”,AI生成只是一个“空壳”。
为此,百图生科在过去的两年中,主要工作放在了建立生命科学数据图谱之上。
据悉,目前百图生科已经建立全球规模最大的免疫图谱xAtlas,覆盖66+亿蛋白,超过300亿蛋白互作关系,1亿单细胞,以及6100+万免疫互作关系,和6000亿泛细胞共现关系的大规模图谱。其中,90%的数据来自于公开或半公开的非结构化数据,其余的10%则来自内部实验室产生的私域数据。
宋乐表示,尽管这些数据听起来很容易找到,但整理起来难度极大。“因为这些数据散落在不同的数据集,甚至是非结构化数据,在各种论文、专利中。因此,如何抽取重要数据,并且关联数据,比如对齐、聚类、去重、筛选等,需要大量的专业人员付出努力。”
具体来看,百图生科的生信工程师会基于自有实验体系,重新测量、评估数据,以验证公开数据之间的相关性或准确率,测量结果将影响模型训练时对数据的使用权重;同时,围绕数据对应关系的建立,百图生科花费了一年的时间实现了公开数据的对齐,比如,将蛋白质与基因配对,将相互作用对应的两个基因或蛋白质进行关联等。
刘维表示,前期百图生科的生物投资动作,也是如今能够和医药行业伙伴在数据层充分合作的重要原因。目前全球已投资超过50家早期企业。
投资生态版图
实际上,仅仅是以上公开数据,就足以炼就生命科学领域的专有AI大模型,为何还要补充内部实验数据?
如果拆解ChatGPT来看,这一模型之所以强大的原因,在于验证了参数增长、训练数据量增大,对AI模型的重要意义;其次,ChatGPT采用“小样本+人类反馈微调监督学习”的方法,解决了大模型数据标注工作量巨大的问题,是模型得以迅速迭代的基础,并且显著提升了真实性、减少了有害信息的输出。
同理,在生命科学领域里面,加标签的成本要高很多,比如,给一个蛋白质的序列加上标签,往往需要大量的实验,包括电镜的收数据、解数据。
“因此,通过高通量实验等产生的数据,就可以直接绕过加标签这一步,可以理解为生命科学大模型的监督信号,让它能够合成有功能的蛋白。”
宋乐进一步表示,“这个就是AI从大规模预训练模型走到具体实用的一种模式。”
据悉,在内部数据获取方面,为更好地实现引擎的干湿闭环,百图生科构建的免疫模拟和扰动实验体系,从临床出发,开展10余个免疫治疗前后的队列项目,计划采集样本千余。
以组学实验室为例,百图生科针对10余种不同来源的组织进行样本处理,每年可采集1000万个单细胞测序数据。而在更后端的早期成药性筛选环节,每月可交付2000个样品,检项包括靶点抗原亲和力,多聚性,热稳定性,酸碱峰分析,基于质谱的完整分子量和糖型分析。
刘维表示,为了加速推进几十、上百个药物管线的开发,百图生科在苏州建立了一套完整的从抗体发现,到蛋白打印,再到抗体工程和优化的平台,能够高通量地实现药物亲和力、特异性、表位、功能、可开发性的全方面数据采集。
“可以说,这一套高通量实验验证体系,就是为了实现干湿数据的端到端闭环,也是近两年开始,我们这一代公司才有这样强的需求。”
从蛋白实体、到蛋白和蛋白相互作用,从单个细胞、到多细胞系统,这些在免疫模拟系统内产生的高通量私域数据,加之百图生科基于公开数据精细化加工所得到的多模态数据,汇成了AI大模型的“数据基石”。
二、模型设计
搭建生命科学领域的AI大模型,同样是一个“从无到有”的创新过程。正如宋乐所言,为何模型参数选定为“千亿”,而非“十亿”、“百亿”,或者“万亿”?事实上,从性能和成本上看,千亿参数是一种平衡。
首先,千亿参数对于自然语言大模型来说也是非常大的量级。目前每个蛋白质长度是几百,总体而言,蛋白质数据量级已经能够媲美自然语言数据,数据量已经达到千亿级别,万亿或者更多。
宋乐表示,“如今的蛋白质数据已经能够媲美自然语言数据,数据量早已达到TB Trillion级别,在拟合过程中尝试过不同亿级的参数,最终发现,参数越大,对问题理解程度和表征能力越强。而千亿参数才能充分吸收蛋白质相关信息,才能精准预测蛋白质结构问题,以及denovo(从头生成)精准度较高的蛋白。”
刘维补充道,“反过来看,是不是一定有千亿参数才可以进行蛋白质结构预测和设计?”
他表示,“通过几个轮次的模型迭代来看,如果AI做的设计出来东西,跟普及度更高的动物筛选平台差不多,或者拉开的差距不大,那么AI就没有优势可言,因此,‘一万亿倍差距’才是我们值得探索的目标。此外,我们的特长是解决行业中目前无解或者更前沿的问题。”
实际上,目前生命科学大模型仍有参数上升趋势,但从现实成本考量,千亿已经算是是行业中极高的技术门槛。
宋乐指出,训练一个千亿级的大模型,可能需要上千个GPU,运行3到5个月,每年对类似xTrimo这样级别的大模型进行几次训练,需要在计算资源方面花费上亿元。“而我们背靠百度算力资源,也是能够把生命科学大模型做出来的一个重要原因。”
此外,百图生科与百度云联合构建了“混合异构的生物超算中心”,能够支持动态获取高达几千到几万个GPU,以及相应的CPU资源。
值得一提的是,目前xTrimo的下游模型,比如抗体抗原复合物的结构预测、亲和力预测,单细胞在扰动下面的响应预测等等,都达到了业界的最优水平。
刘维表示,“无论是预训练模型设计,还是下游模型微调上看,既是对AI和生物两种背景人才合作和碰撞的好机会,也是百图生科对未来尖端人才融合培养的一次尝试。”
同时,刘维保持着一如既往的开放态度,谈到AI大模型的发展趋势,“如今AI大模型的技术浪潮,确实带来一种繁荣,甚至一开始还会出现重复造轮子,无序竞争的现象。某种意义也不是坏事,意味着更多人才和公司发展出来,自然会有所分化,找到适合自己的垂类方向。”
三、训练方法设计
在发布会现场,“行业敬畏”是出现极多的一词。
如何理解呢?
百图生科企业发展副总裁瞿佳润(Vicky)表示,“生命科学大模型已经取得了很大进展,但它天然具有持续迭代的特性,因此需要不断地去整合生命科学领域的各种数据、知识和技术。”
百图生科企业发展副总裁瞿佳润(Vicky)
以数据为例,因为生命体的高度复杂度,目前数据量很大,但仍然是有限的。随着生命科学领域观测手段和技术的发展,吸收更多的数据尤其是垂直类数据,将使我们能够更加精细精准地理解进化,理解生命。
这也就意味着,要实现这一目标,百图生科需要不断吸纳新的合作伙伴,特别是那些在体外模拟体系、超精度观测和特殊验证体系等方面具有丰富知识和技术的生命科学家。
敬重科学的力量,并且利用成熟的商业合作推动技术具像化,正是这次AI风口的最大魅力。
但百图生科带来的想象力并不止于此。在生命科学行业,具有通用能力的大模型成为基础设施,在支持具体的新任务时,只需要利用该任务的标注数据进行微调即可,一般工程师就可以实现。
在大模型时代,所有面向生命科学的公司,都可以便捷地用最先进的AI技术来解决各自的业务问题,不同规模的企业重新站在同一起跑线上,将大幅加快生命科学的面世进程。
正如瞿佳润所言,“百图生科的目标,是让更多人带着高价值问题,零门槛或低门槛启动起来。”
对此,全球顶尖生信专家Robert Gentleman教授评述,“如果将这一模型视作‘idea generator‘,一切会变得更加美妙”。在百图生科的基因里,“用科技让复杂世界更简单”,与之遥相呼应。
困扰AI的最大问题,是应用。
说到底,百图生科究竟有没有起底生命科学的实力?从目前的合作伙伴上看,百图生科已经赢在了起跑线上。
瞿佳润透露,目前xTrimo体系的进展和已经应用的具体案例,截止目前,xTrimo大模型已经在蛋白结构预测、抗体序列生成、细胞表征等问题上实现SOTA,并在细胞功能预测、denovo药物设计上取得突破性进展。
AIGP 3大功能模块+12项核心能力示意图
据雷峰网&《医健AI掘金志》不完全统计,在F2P、P2P、C2P等AICP三大能力上,典型合作伙伴有:
F2P:MBZUAI(石油污染降解酶联合设计)、世界渐冻人日(渐冻症调控蛋白设计)、西湖大学(and-gate蛋白设计)、STEALTH PARITNER(基因疗法递送蛋白设计);
P2P:HARBOUR BIOMEO(高性能免疫调控弹头设计),华辉安健(难成药靶点精准设计)、逻晟生物(定表位抗体筛选)、新景智源生物科技(可溶性TCR亲和力优化);
C2P:免疫学研究所(巨噬细胞靶点和调控蛋白发现)、清华大学(多种自免疾病靶点和调控蛋白发现)、北京大学肿瘤医院(胃癌靶点和调控蛋白发现)、中国医学科学院肿瘤医院(食管癌新细胞调控靶点挖掘)、索智生物(IBD协同双靶点挖掘)。
刘维表示,目前百图生科的AIGP平台,可支持同时跑四十多个生命科学研发项目,如果按照传统的生命科学逻辑研发,这可能需要花费十亿美金。
与此同时,他也坦诚表示,如今的AIGP平台还是一款不算完美的产品。尽管前沿Denovo蛋白质预测的指标已经达到SOTA或首创,但原因很简单:“这些领域原来基线太低,不意味着我们都能高质量地完成工业任务。”
因此,回过头来看,为何百图生科选择与行业伙伴共同深入到原创药物的设计、研发、临床试验等环节,而非定位于“CRO”的角色,致力于外包服务?
在发布会现场,刘维、宋乐从经营运作和技术发展的角度给出相似的回答:
“两年的时间基本够干什么呢?数据整理完成第一个阶段,实验体系完成第一个阶段,大模型架构完成第一个阶段,对一系列的任务评估问题达到SOTA,只能说搭起一个架子。而生命科学最大的魅力,正是在于未知问题的上限高。”
因此,如今百图生科推出AIGP平台的逻辑,恰恰只是一个开始。
据悉,在发布前,AIGP平台已经进行了一段时间的内部测试,有近20家合作伙伴和百图生科开展了AIGP联合研发合作。随着这一平台开启“公测”新阶段,行业伙伴的使用与反馈,论证模式的可行性,也会加快其后续的迭代速度。
正如刘维所言,“他们既是我们今天的第一波联合开发者或者用户,也是我们未来的合作伙伴,而且百图生科跟主流的CRO企业间仍然是合作的关系。”
百图生科AIGP平台发展计划
在这次的AI浪潮中,一家公司是否具有技术理想主义,被再次定义为技术草莽时期的“胜利”。但百图生科的布局在于,它已经构建了一张够的着的商业蓝图。
一年前,刘维强调,“百图生科研发的目标直接锚定在“first-in-class”(全球新)药物,对标的医药巨头基因泰克”。一年后,有人问到“逐步开放技术生态,是否会更趋向于生命科学领域的OpenAI?”
他的回答是:这需要一种平衡,在技术发展初期,要愿意像OpenAI一样俯下身来打磨产品。