以ChatGPT为代表的AIGC技术,彻底点燃了市场热情。
前不久,腾讯研究院发布《AIGC发展趋势报告2023:迎接人工智能的下一个时代》指出,AIGC的商业化应用将快速成熟,市场规模会迅速壮大,预测将率先在传媒、电商、医疗等数字化程度高、内容需求丰富的行业取得重大发展。
与此同时,诸多国外商业咨询机构更是直接给出数据:未来五年10%-30%的图片内容由AI参与生成,2030年AIGC市场规模将达到1100亿美元。
星星之火,可以燎原。早在五年前,AIGC还籍籍无名。它有一个相当拗口的名字--AI生成虚拟内容。以2018年的视频换脸技术Deepfake为代表,“AI伪原创”一词,便从那时传开。
随着深度学习的发展,AIGC逐渐渗透在图像、视频、CG、AI训练数据等各类领域,人们对于这一技术的期望也逐渐丰满。
时至今日,AIGC技术能否用于计算生物领域的新引擎,医疗健康赛道何时迎来新型基础驱动力,成为时下产学研各界的共同关切。
近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《ChatGPT的一把火,能否烧到AI生命科学界?》线上圆桌论坛落幕。
本次论坛,由中国人民大学数学学院龚新奇担任主持,中国科学院深圳理工大学(筹)计算机科学与控制工程学院院长潘毅、百图生科首席AI科学家宋乐、深圳湾实验室系统与物理生物学研究所资深研究员周耀旗、分子之心创始人许锦波,天壤创始人薛贵荣参与讨论。
在上篇中,几位嘉宾共同辨析“AIGC”这一概念,探讨生命科学界中的哪些成果属于AIGC,以及ChatGPT在生命科学领域中可能实现的任务。
在下篇中,将分别探讨AIGC为生命科学带来的可能性与其自身局限,以及中国能否在应用场景上快人一步,实现技术落地与产业转化。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
以下是主题论坛的现场内容,雷峰网(公众号:雷峰网)《医健AI掘金志》做了不改变原意的编辑和整理:
龚新奇:继UGC、PGC等形态之后,你们如何看待AIGC的概念?在这一概念走红之后,不少团队都在宣称入局AIGC。在各位看来,AI生命科学的哪些成果,可以称之为AIGC?
潘毅:PGC,是指专业人员队伍产生的内容;UGC,是使用者生产内容;AIGC是用AI系统来产生的内容,也就是软件产生的东西。GPT,Generative Pre-trained Transformer,相当于一个专门的、特殊的AI系统,应用性更广泛的general系统。
比如,我们告诉它几个关键词,小桥、流水、春天、树叶,它就能生产一篇美妙的文章;告诉它画里面有古堡、城市,有桥有山有水,它就产生相关的画面。因此,目前由AI生成的内容已经比较广泛。
实际上,很多公司可能以前就已经介入AIGC。
举个例子,AlphaFold也属于AIGC。因为AlphaFold无非是输入一个序列,据此生成一个预测结构,其原理与ChatGPT根据输入的词汇生成一篇文章是相似的。
此外,网络关联技术也属于AIGC,比如基因与疾病的关联、药物与疾病的关联、数字与target(靶标)的关联等等,很多人就是利用图神经网络找出其中的关联性、规律。目前最典型的就是旧药新用,找出旧的药物与新的疾病之间的关联。
其中的原因是什么?我们可以通过输入旧数据产生新的图像,使节点之间产生新的连接,这就是AIGC。
现在很多研究团队要进入AIGC的想法是可以理解的,但是如果要利用GPT来阐释内容,我觉得还很多小公司还做不到,目前来看还早了一步。
因为只有技术和算法是不够的,还需要有“三部曲”作为支撑:大数据是否能拿到,资金是否足够,算力是否充足。三者缺少任意一样都无法做到。
所以我更倾向于,大家不一定马上实现GPT的应用。当然,我们在生物信息中用现有的GPT来完成一些任务是可行的。
比如在生物信息中,我们原来用的是text mining(文本挖掘),但是无法得知癌症等疾病具体与哪个基因有关系,只能依赖于手工操作完成许多工作。
但使用GPT,在其中输入一个基因词和一个疾病的名称,就可以挖掘出其中的关联,每一种疾病与每一个基因词之间的关联度都能够在GPT中反映出来。
现有的ChatGPT主要是为对话服务的,暂时还做不到为专业的生物信息领域的问题服务,所以我们今后要研究自己的GPT,技术、算法采用GPT的idea来做,但数据范围要缩小,专注于Bio,即BioGPT。
我们的数据要集中在疾病、蛋白质、基因、RNA等范围内,研发基于生物信息的算法,从而减少存储器与算力的需求,降低企业的开发门槛。
宋乐:首先从模型上来说,我也同意潘老师的见解。很多情况下我们在做深度学习的时候,预测的是一个比较简单的分类或是一个回归的任务,也就是一个值或一个概率。
但Generative model预测的是一个更大的东西,可能是整个图片或整个句子,而且它不仅仅是预测一张图片、一个句子,而是通过采样的方式生成一组图片、一组的句子,不断地生成新的内容。
生成模式实际上是基于条件生成内容,比如输入某些元素之后,根据这些元素生成一个对应的图像。其特殊之处在于可以不断地采样,从而每次输出不同的结果。
AIGC需要依赖大量的数据和算力,目前在生物领域中,成本上也达到了临界点。
从数据的层面来看,我们现在有亿级甚至更多的蛋白质序列,可以基于十亿、百亿甚至千亿级规模的数据进行训练,同时采样新的蛋白质,就可以生成各种各样的蛋白质。
同理,除蛋白质之外,其他生物领域的数据也达到了这一规模,例如,单细胞测序每次能将一个细胞中的两万个基因的表达量都测出来,借助这一技术,人们对几亿个细胞都做了测序,上亿规模的数据都可以作为细胞内基因表达的预训练模型。
基于预训练模型进行自然语言等下游任务的预测,甚至是基于一部分的基因表达恢复或生成另一部分的基因表达,都达到了数据的临界点。
刚刚我提到的这些模型,其参数也可能是亿级、十亿级甚至更大级别,所以需要很多的GPU,以并行训练的方式进行长达数周甚至数月的训练,模型拟合大量数据之后,生成的东西特别自然,像是原数据集里的东西,这对蛋白质设计、细胞表征、细胞扰动的反应、制药问题等等都是很大的推进。
从模型的提升到具体落地还有一段距离,但是我们已经看到了曙光,看到一个清晰的前进方向,可以将其与湿实验结合落地,进行AI药物研发。
周耀旗:我认为AIGC其实有一个前身叫做CGC,即Computer Generated Content。
在AIGC出现之前,我们已经用计算机在生物学上做了很多工作,也产生了很多内容。现在AIGC突然之间红火起来,实际上是对CGC的重新包装。
我们以前做分子动力学,用计算机模拟的方法研究蛋白质的运动、功能等等,这些都属于CGC的范畴。
现在的AIGC和以前计算机生成内容不一样的地方在于,AI主要是利用大数据进行训练,产生一个新的content。这个概念可以跟以往相区分,因为AIGC与以往用户、专家、计算机产生的content有完全不同的系统错误率和偏好。把它们区分开有利于我们进一步的分析和研究。
AIGC的一个特殊之处在于,它产生内容的速度非常快,估计其产生的内容会很快超过人类产生的内容。
AIGC在生物科学中的成果早在ChatGPT之前就已经出现了很多,AlphaFold2可能是其中最亮眼的一个成果,它在不久前就预测了所有的蛋白质结构,并且形成一个数据库,供大家下载和研究,我觉得这就是一个标准的AIGC,刚才潘老师也提到了。
所以在某种意义上,AlphaFold2已经走在ChatGPT前面了,带动了生物领域的革命。
其实不仅仅是AlphaFold2,我们以前用AI方法算了很多东西,包括蛋白质结构预测、蛋白质功能预测等等,虽然当时的准确度还不够高,但本质上也是用计算机产生的content。AIGC刚开始的时候准确度也并不高,比如现在的ChatGPT的准确度还不高,会有很多错误的地方。
我认为通过AI产生的生物学相关的科学文章、综述报告、文章摘要,以及生物学相关的图片、科普音频、视频等等,都属于生物学领域。AIGC和ChatGPT等工具已经开始进入生命科学这一领域。
由于现在的精确度还不够,还没有真正大规模地开始,未来AIGC应该会成为生物学方面很重要的应用。
前几天我测试了一下ChatGPT对生物学专业的内容了解程度怎么样,发现它对基本的知识面了解得很清楚,比如我问它RNA的二级结构,回答是比较精准的。
但是涉及到比较深入的新知识面时,ChatGPT的回答就经常出错。比如我问它AlphaFold2是靠什么成功的,它要么给一个很肤浅的回答,要么给一个完全不正确的回答。
这和ChatGPT的训练数据中的内容有很大的关系,因为训练数据中基础知识比较多,ChatGPT对这方面的知识回答就会比较准确;如果新的知识尚未收录或者少量收录到训练数据中,ChatGPT回答的准确率就会低一些。所以在相当长一段时间里,ChatGPT在专业程度非常高的生物学等领域中应用时,需要小心验证。
薛贵荣:正如刚刚周耀旗老师所讲,如果训练数据足够丰富,ChatGPT就可以生成一个相对专业的答案,当训练数据不够充分时,它生成的答案就不够好了。
一方面,我认为AIGC,特别是ChatGPT对目前已有信息的组织起到了关键作用,它能够将专业的内容组织起来,生成一个较好的答案,但是要依赖于基础库的数据质量与全面性。
另一方面,我认为AIGC的优势在于其创造性,它在图像领域取得的效果很令人惊讶,这表示着AI可以更具创造性地产生一些我们没有见过的知识,相对于更偏重组织的文本内容,对图像领域来说,创造性则更为重要。
就像我们做蛋白质研究,TRDesign设计出的蛋白质结构中,有很多我们没有见过,甚至自然界中也不存在,但是借助TRDesign我们就能够设计生成这些未知的蛋白质。
这些功能将会使AIGC大放异彩,既能将已有的高质量内容组织起来进行内容生产,又能生产未知的内容。
AIGC应用在AI生命科学中所产出的成果也可以分为两个方面,一方面是生成新的药物或材料;另一方面则可以积累大量专家的问诊经验,将其组织起来形成一套寻医问药系统,解决医疗资源匮乏的问题,为普通病人答疑解惑。
但前提是要将AI生命科学领域内大量的数据组织起来,才能推动进一步的研究。
许锦波:AIGC在生命科学领域中的应用比较广泛,比如我们做AI蛋白质设计就是用AI设计自然界中不存在的蛋白质,所使用的底层深度学习模型与ChatGPT的底层技术是一样的。
在这个过程中,可以将蛋白质序列理解为一个句子,将每个物种的蛋白质序列的集合理解为一种语言,所以我们也可以使用自然语言处理领域的深度学习模型来处理蛋白质氨基酸序列。比如用现在大家都在用的transformer对蛋白质序列进行建模,生成新的蛋白质序列。
当然,用AI生成蛋白质和生成自然语言也有不一样的地方,比如除氨基酸序列之外,每个蛋白质都有其特定的三维结构,所以在生成蛋白质时,要综合考虑其序列信息与结构信息进行设计。
此外,ChatGPT中的强化学习部件目前还没有应用在蛋白质设计之中,因为自然语言获得反馈的速度比较快,但蛋白质设计的结果通常需要实验验证才能得到比较正确的反馈,因此不那么容易获得。
除用AI设计蛋白质以外,运用不同的生成算法,AI技术也可以生成DNA、RNA和小分子,在这一领域内也早有人在进行研究。
龚新奇:AIGC概念与蛋白质设计或哪些其他任务有天然的契合度?换句话说,什么样的任务适合ChatGPT来做?
薛贵荣:从去年年底到今年年初,国外的David Baker实验室、Generate Biomedicines、Profluent等机构,都发布了蛋白质设计的平台,天壤也在开放平台上发布了蛋白质设计模型TRDiffusion。
蛋白质设计已经经历过几代技术变革,从一开始天然蛋白的改造,到蛋白质定向进化,再到利用大量算力拟合蛋白质。
如今我们开始考虑能不能从头开始设计蛋白质,其难点在于如何做到可控,是完全从头开始设计一个蛋白,还是根据已有的核心片段,将蛋白质补全为符合一定长度的结构,或是对蛋白质序列中的某个片段进行替换,这些任务将来都会变成与系统的交互。
例如将蛋白质中某一个口袋拉大、替换某个片段、添加对称性展示、进行溶水性优化等等,这些原本需要具备多年研究经验的操作,都将在一个系统中表达出来,从而进行可编程、可控的蛋白质设计。
其次,我们也希望从交互上做一次变革。在以往的蛋白质设计工作中,几个小片段的设计都需要花费大量成本进行湿实验做验证。将来我们可以先在计算领域通过干实验的方式进行交互,快速迭代,改变传统实验中复杂的验证方式,将蛋白质设计需要花费的时间从几年、几个月缩短为几天、几个小时。当然最终还是要到实验室中验证我们设计的结果是否满足条件。
我们希望通过交互的变革与可控的设计,在未来的蛋白质设计研究中快速、高效地生产更多的蛋白质,加速工业制造,为人们的生命健康做贡献。
宋乐:在产生新的蛋白质序列、蛋白质结构,以及对蛋白质的可设计空间进行探索的过程中,AI是一个非常好的工具。百图生科做的大规模蛋白质预训练模型、加速版的结构预测模型,都是在AIGC的空间之中,这一技术起到了非常重要的作用。
但其实现在训练的这些生成模型,大多属于非条件的生成。
例如我们使用一个模型生成一张新图片时,要求图片满足画面中有三个人、两条狗,在玩某种特定的游戏,彼此之间有特定的距离等条件,如果要将这一系列的条件生成模型,还需要额外的模型对其进行引导,控制生成我们想要的东西。这些工作目前还非常具有挑战性。
将这些条件转换到蛋白质设计中后,相当于需满足抗体与病毒的抗原在某一个特定的位置结合、结合的亲和力达到某个强度、蛋白质本身比较稳定、蛋白质合成后的可开发性等诸多条件,利用生成模型控制生成满足需求的蛋白质。
为了符合上述各项指标,需要有一个额外的模型对生成模型进行训练,即AIGC模型除了要生成一个具备多样性的先验分布之外,还需要一个给定先验分布到想要的属性之间的预测模型,才能够通过这两个模型的叠加,控制生成一组非常好的后验样本,使生成模型既具备多样性和创造性,同时也能满足对规格的要求。
这个过程中还有很多算法上的工作需要进行,目前已经完成了部分生成模型的模块,以及从生成的序列和结构连接到我们最感兴趣的结构或蛋白质本身属性的模型,AlphaFold2也属于这种连接序列和结构的模型。
还需要对每个模块都进行下一轮的工程与模型效果的提高,才能将其连接起来,达到在AI层面设计很多不同的、满足属性要求的蛋白质的效果。这些工作完成后,可以大大减少湿实验。
通过AI设计的模型,可以先找到最有可能满足规格的蛋白质进行合成,将实验的数据反馈给AI模型,在进行下一轮的迭代设计,从而对蛋白质设计进行加速。
这是百图生科正在前进的方向,我们将构建出一个非常强大的模型,从而减少湿实验的次数,为蛋白质及其相关的药物设计提速。
周耀旗:我们课题组是世界上第一个用AI神经网络来做蛋白质设计的,也是第一个用深度学习来改进蛋白质设计的,这是2014年和2018年做的工作,在当时一直是冷门,最近几年因为AI红了才开始变成热门,突然冒出来很多方法,我们的这两篇最早的论文最近关注度也特别高。
举个例子,新AI设计方法Progen是一个比较好的工作,但是媒体夸大了它的价值。它实际上做的事情就是从大批量的同源序列中学习到了因为结构和功能的需求而必须保留的氨基酸,生成了一个保留了这些关键氨基酸的新同源序列,从而有类似的功能也毫不惊奇了。
这项工作其实还是有很多问题的,比如不能预测所生成的蛋白质活性的强弱,以及蛋白质的活性在不同的pH、温度等条件下会产生的变化,因为这些变化才是我们想用定向进化来达成目标。
所以这一方法目前还无法代替定向进化,而且也无法设计具有新功能的蛋白质。蛋白质设计的最终目标就是要获得新功能。
Progen与ChatGPT是很相似的方法,在蛋白质设计上离我们理想中的能力还有一些差距,还有很多工作需要完成。
AIGC,不能够局限在序列生成这个领域,在生物学中还有很多其它应用,比如它不仅仅可以生成序列,也可以生成结构、功能,甚至生成整个病毒、器官、物种等等,在未来都有着很大的可能性。
AIGC相当于打开了一个新的窗口,在未来通过大数据可以产生越来越多创新的东西,不仅仅局限于序列和蛋白质,也可以生成DNA、RNA等等,进入到整个生命体系的方方面面,前途非常宏大。
我认为这些工作还是挺艰巨的,并不是马上就能成功,我们目前所看到的只是第一小步。
潘毅:我认为软件ChatGPT软件功能非常强大,扩展以后可以做很多的工作。
比如我们输入一个序列后,对药物结构和功能进行预测。例如刚才薛贵荣老师提到的通过几个小片段的小功能,做一个大的不同的功能。有了数据库里的知识储备后,通过a、b、c的组合可以得到功能d。在小分子、蛋白质等的设计方面也可以逐渐地改进。
我们所谓的药,target(靶标)跟小分之间的关联有两个问题,一是关联的粘合度要高,二是要有活性。
这是一个综合的问题,要用分子动力学来测试活性,使药物的能量最小、最稳定,活性更好,惰性也更小。这其中很多参数可能有矛盾,如果将这些知识放到GPT中就可以有一个综合的表达,帮助药物研发。
疾病预测也是GPT的拓展方向之一。癫痫症、老年痴呆症等疾病在MRI核磁共振图像中显示的是外在特征,内在则是基因的变化,通过数据的堆积可以将这二者关联起来。
我有同事正在研究疾病的成因,哪个基因导致的疾病,哪个蛋白质网络在调控、关联等等。我们将蛋白质网络输入GPT后,就可以找到关联度,例如在蛋白质研究中的重要问题——关键蛋白,利用GPT做疾病成因的研究。
刚刚我提到text mining(文本挖掘)原本的方式很笨,如何利用AI来挖掘就是数据挖掘的问题。
GPT使数据之间的关联度变得更高,我们输入某个疾病和某几个基因,马上就能得到它们之间的关联度。这些问题得以解决的前提是有专业的数据做支撑,没有数据支撑就无法使用这些技术。
我更希望今后的ChatGPT能够添加专业领域关键词,例如我们提到mining,在数据领域就是数据挖掘,但只提到mining时ChatGPT可能无法理解。
所以在和ChatGPT对话时要补充相关专业领域的参数,以得到更精准的结果。将来进行生物预测时,GPT如果能够提供具有专业水平的生物数据,就能更精准地找出基因与疾病的关联。
GPT的缺点在于完全依赖于历史数据,无法预测将来。颜宁院士曾经也讲过这个问题,她认为AI制药中binding的预测很困难,主要原因就在于数据不充分,没有蛋白质、小分子等的大量数据,自然无法用AI进行预测。
但是当我们在某个领域聚集了很多binding的数据时,就能够预测得很准。
可以想象,随着时间的推移,数据积累越来越多的情况下,预测的精度也会越来越高。而且要基于专业的知识和数据进行预测才会准确,不专业的知识还是做不到。
很多时候,只有一个好的AI算法解决不了所有的问题,要具备算法、算力、数据三大要素才可以。我认为专业知识更重要,只有算法框架而没有专业知识是达不到好的效果的。
正如刚刚薛贵荣老师所言,假如蛋白质是由100个氨基酸组成的一个序列,每个都有20种可能性,那么可能性就多达20的100次方,远远超出世界上现有的蛋白质、氨基酸的数量,也就是说有很多自然界中不存在的氨基酸需要去设计。
由于这些蛋白质是自然界中不存在的,设计出的功能也许很好,也许会走偏,进行湿实验验证的过程也是一笔不菲的开支。这是一把双刃剑,今后应该继续开展研究。
许锦波:AIGC这个概念跟蛋白设计是比较吻合的,AI蛋白质设计与ChatGPT主要的区别在于验证方面。
在生命科学领域实验验证非常重要,用AI设计蛋白质也是如此。必须要通过实验验证才能知道设计出的蛋白质到底是不是有功能。
目前还没有一个很好的计算方法可以用来验证设计出的蛋白质的功能,如果不做实验验证,不管展示的图像有多好,事实上也无法确认设计的蛋白质是不是真的具备某种特定的功能。
不能只做一个AI算法就号称自己能够做大分子小分子的生成,一定要验证生成出来的这个分子是不是真的有功能。
从AI的角度来说,ChatGPT的出现是一个非常重大的技术突破,能够与AlphaGo相提并论。但是在生命科学领域,尤其是蛋白质设计方面的影响并没有那么大,因为早在两三年前生命科学领域就已经开始做蛋白质结构设计了。
由于算力和数据量的提升,现在的模型也许会比以前更大一些,但是在算法层面,虽然现在的AI算法比传统方法要好很多,但和几年前的AI蛋白质设计算法没有本质的区别,并没有看到跨越式的进步,仍有很多方面需要继续创新,进一步提升蛋白质设计的成功率。