AI开发者做AI新药研发是一种什么体验?周杰龙似乎更有体会。
2018年,百度搜索技术创新核心人物之一,原百度主任架构师周杰龙,带着一批AI技术骨干实现了一次“跨界”,创立AI制药企业「望石智慧」。
将AI用于搜索是周杰龙的强项,但是如何将AI用于制药环节,在创立望石智慧之前,他仍是“一张白纸”。
没有医药相关的知识储备,周杰龙选择了一个最笨也最直接的方法——自学。
围绕细胞学、药物化学、结构生物学、药物设计、有机合成、药理学等方向买了几十本专业书;同时,积极参加诸多医药领域的学术会议,与学者探讨人工智能应用到创新药研发领域的可行性。”
在周杰龙看来,小分子化合物是上帝书写的外语,而这些化合物与生物大分子靶点的匹配过程就像外语的翻译。望石智慧要做的就是用AI帮助药企去‘翻译外语’。
经过近三年布局,望石智慧AI分子设计软件平台已在多个高难度、全新机制或类型First-in-class或Fast-follow项目中取得突破性试验结果。
上个月,望石智慧完成总额达1亿美元的B轮和B+轮融资,是目前AI制药新势力里,规模最大的创新企业之一。
近日,雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为主题,邀请百图生科、剂泰医药、未知君、望石智慧、英矽智能、星药科技六家先锋企业,举办了一场线上云峰会。
作为此次云峰会的报告嘉宾,望石智慧高级算法专家周文彪就以《AI+药物研发的应用和挑战》为题,从技术人角度,对望石智慧的AI制药研发策略做了介绍。
周文彪表示:从算法角度来看AI制药,传统药物筛选经常需要在1060分子空间中搜索药物小分子,这很像机器学习中的最优化过程,通过最优化算法来将模型训练至一个全局最优处。
但因为算力问题,过去药物专家经常通过经验设计小分子再进行筛选,所以传统药物研发很容易陷入局部最优,这也就是最早AI介入制药环节的契机。
而经过学者多年的研究和企业的逐渐深入,AI技术也已经在更多药物研发环节生根发芽。
以已知参考分子的Me-better的项目为例,AI可以淘汰专家环节,通过ligand-based(配体为基)的AI模型生成大量参考分子,针对某个特定性质、形状、化学性质或药效团,找到大量优化方案。
而针对参考分子的first-in-class药物研发项目,AI主要则可以进行更高通量的筛选,达到10亿级化合物库,并引入用分子生成方法,针对某个分子空间特定区域,密集生成理想分子。
以下是演讲全部内容,雷锋网做了不改变原意的整理和编辑:
大家晚上好,很高兴参加这次雷锋网AI药物研发云峰会。
首先做个自我介绍,我之前背景更偏向互联网,有10年互联网AI算法落地经验,算是跨界过来。
今天将更多从AI开发者角度,给大家搭建一个桥梁,让AI领域朋友认知到 AI和药物研发的结合意义,并分享其中的应用与挑战,主要想从三个方面来分享:
首先,从药物研发问题出发介绍AI如何在其中发挥作用;
其次,介绍望石智慧助力药物研发怎么应用AI,有哪些落地;
最后,分享对AI+药物研发面临的一些挑战、展望和思考。
先来介绍一下,药物研发是怎么回事。
药物原理更类似于一个钥匙,解开疾病的钥匙,如何低成本找到这把钥匙,就是药物研发需要解决的问题。
而锁就是疾病靶点,通常我们把它认为是一个蛋白质。
钥匙小分子插入锁孔就是跟蛋白质发生结合,可以抑制蛋白质正常作用,或者激活蛋白质某些作用。
图中就是一个蛋白质分子;上面有一个小分子,即药物分子,蓝色区域是锁孔,我们称之为口袋,口袋中经常会有一些氢键作用,这种非共价键作用能促使其与小分子产生结合,从而让小分子牢地结合口袋,发挥药效作用。
例如人体的酶,在人体中起非常重要的生物功能承载作用。
其中有一种酶RNA聚合酶,可以完成RNA复制,很多病毒侵入人体以后,它会把RNA注入到人体细胞,然后特定RNA聚合酶与RNA结合,起到复制RNA功能。
2020年,有一个非常有名的药物“瑞德西韦”,靶向的就是这种酶。
瑞德西韦有一个比较大的基团,会在复制过程中跟α-helix侧链上某个基团发生碰撞,从而阻止RNA复制过程。
通过这个简单案例,我们能够清晰了解药物如何发挥作用,但从AI角度应该怎么帮忙设计药物呢?
整个药物研发过程大概分为两个阶段,一是研究阶段,主要就是实验室阶段;接下来实验室到上市阶段,主要内容是体外实验和临床实验。
AI制药主要就是在研究阶段发挥作用,就是前面2~5年,这个过程中,大家希望非常准找到化合物,也就是有活性,成药性比较好;在临床实验阶段能更快完成药物实验和申报。
在前期实验室研发阶段,主要的痛点在于需要不停实验、合成、测活性、测成药性,这样的成本不低,而且很容易失败,一旦失败就需要重新合成,再重复实验,周期非常长。
这些失败30%原因都是因为活性,以及药效、 ADMET性质、毒性等方面原因。
那为什么失败率会这么高?
主要就是因为小分子空间非常大,需要在1060分子空间搜索一个药物小分子,这对于传统药物研发非常复杂,所以药物专家往往先通过经验设计小分子,并希望能在后续测试中达标。
这很像机器学习优化过程,希望找到一个全局最优点,但传统药物研发很容易陷入局部最优,这也是我们希望AI可以解决问题之一。
大体了解情况之后,再从整体看一下传统药物研发过程。
首先是确定疾病靶点和机制,再通过药化专家、大量专利和文献调研来完成分子筛选,主要分为两条路:
1、当根据靶点或疾病蛋白质,已找到阳性分子或靶上药物,就可以此为出发点,设计效果更好的新药物,这种项目常被称为Me-better或者Fast-follow。
因为有参考分子,专家大概可以参考分子结构设计合成化合物,进行后续试验。
2、另一类项目是first-in-class项目,这类项目往往没有现成可参考分子,需要进行传统高通量筛选,这种高通量筛选通量也只能达到万级别,主要做法是用已有化合物库,用微孔板为载体进行高通量筛选,所以通量不会很大。
刚下已经提到药物活性筛选,主要就是判断蛋白质与药物结合能不能起到药效,以及ADMET实验测试结果,这些如果不合格,就需要进行进一步优化,将这一步骤循环往复。
那具体来说,AI主要作用点于哪一方面?
在靶点和疾病研究方面,AI可以基于多组学数据知识图谱,对靶点和疾病机制进行探索;并基于时空维度对蛋白扫描,进行口袋发现;
此外,基于NLP技术也可以分析大量专利文献,提取分子结构和性质之间关系,辅助后续药物设计。
根据之前两种药物开发路径,首先对已有参考分子项目,不再通过专家设计分子,而是通过 ligand-based的AI分子生成模型生成大量参考分子,即在某个特定性质、形状、化学性质或药效团上类似分子。
其次,就是没有参考分子的first-in-class项目,AI主要进行高通量筛选,进行数量级更高通量的筛选,这往往就是10亿级化合物库。
这里的化合物库可合成性,虽然没有万级别化合物库好,但也符合化合物合成规则。而且,AI还可以用分子生成方法,在分子空间的某一些区域内更密集生成分子。
在生成分子之后,接下里就是筛选, 例如HIT和LEAD活性实验,这个实验并不直接在实验室,而是通过MD和FEP方法进行验证。
后面我们也会用AI进行ADMET模型判别,对分子进行性质判别,如果不太符合要求就要对分子进行进一步优化。
此时我们也可以采用强化学习技术,基于性质判别器和强化学习技术推动分子结构改变。
以上,就是AI企业切入药物研发可供助力的几个角度。
当然,这些层面,有些做得好,有些还在发力中,有些还比较滞后,但目前来说,整个领域发展有很多资本注入,有很多人才进入。
宏观上看,2020年中国创新药研发市场规模也越来越大,达到万亿人民币规模。
国家政策层面上,对创新药研发也非常重视,人工智能助力创新药研发就是焦点之一。
接下来从数据、算法、算力维度来介绍 AI发挥作用的案例。
首先药物研发,主要有两大要素,一个是药物分子,往往是有机小分子;另一个要素是蛋白质,我们用计算机去建模,表示这两个物质。
今天重点讲讲蛋白质表示,这是近年研究热点之一,有结果产出。
这里列出蛋白质3级结构:一级结构是蛋白质序列,即氨基酸构成序列;二级结构是序列根据氨基酸之间氢键作用盘曲而成,例如β-sheet和α-helix;三级结构是进一步由这些二级结构之间、氨基酸之间相互作用折叠成整个蛋白质的结构。
三级结构从三维空间去分析,是一个很小的物体。它在生物体内形状并不随意,因为会承担一些特定生物功能。
蛋白质测序技术现在已经非常成熟,人类也已经测得亿级别蛋白质序列。
这个序列很像自然语言句子,从AI工程师角度,我们很自然会设想能不能基于这个特点做一些挖掘,事实我们后面的工作就是从这个点展开。
这里再提一个很有趣的现象,蛋白质序列中,尽管不使用深度学习而是传统数据挖掘手段仍可以发现共进化现象。
人们发现同源蛋白序列中,往往成对氨基酸会被同时发生变化,故发生突变之后,两个氨基酸仍能形成一些氢键作用。
例如,从这个图上可以看到,4个同源氨基酸序列,两个灰色框氨基酸基本同时发生变化。因为同时发生变化,所以这里始终会有一个结合位点,在结合位点,整个序列在三维空间会发生折叠。
接下来介绍一下建模工作,这是Facebook在2019年开始的一项工作,开始比较直接,后期引用一些共进化数据。
这个项目前期纯粹是使用亿级蛋白序列进行建模,用的模型是transformer,训练任务是mask token prediction。他的token是 residues,也就是氨基酸。
逻辑上看,就是把序列中某个氨基酸遮蔽住,然后用其它上下文氨基酸进行预测,能不能精准这个位置氨基酸种类,这需要花费很长时间进行训练,是比较耗时和耗资源的训练过程。
这是20个氨基酸embedding,学出了20个词汇的向量表示就可以把向量投射二维空间上,右边绿色是疏水氨基酸,左边氨基酸都是带电荷氨基酸,叉是带负电,方框是带正电。
这是一个很有趣的现象,因为无监督学习自然就把这些氨基酸分开了,他们通过transformer还学到另一个结果,即预测三级结构上联系位点。
序列向量表示,AI可以被用作预测哪些氨基酸序列、哪些氨基酸之间可能发生一些联系,即在蛋白质三级结构中,有一些氨基酸因为距离比较近(8Å内)而被认为发生相互作用。
两个氨基酸虽然比较近,但我们希望通过无监督学习,去预测某个蛋白质序列两个氨基酸之间的联系,实际上就是在无监督基础网络加简单训练任务,用transformer结构做线性回归,并加以预测。
单从刚才介绍中,大家可以体会到把蛋白质当成一门语言,当成一个句子,从这样思路出发,去做无监督学习,就可以挖到很丰富信息。
接下来给大家介绍Alphafold 2工作。
实际上Alphafold 2前半段工作也是类似,对蛋白质进行表征,而且跟Facebook下一步工作方式是高度雷同,都用到共进化信息。
Alphafold 2去年参加了 CASP14竞赛,在第13和14届竞赛中连续两年都拿到Top1,评分达到了92.4高分;在一些很难靶上也达到87分,基本接近人类做种x-ray去解结构精度。其实,Alphafold 2用的数据就是亿级蛋白序列数据,用到10万级蛋白晶体结构数据,这些都是公开数据;
算力上,它跟Facebook的算力消耗资源差不多;算法上,前半部分输入的是protein sequence,经过MSA蛋白序列多序列比对做embedding,与Facebook embedding工作是类似的。
之后,Alphafold 2通过两个层面做 self attention:一个层面是同源蛋白序列,另一条路是同一个蛋白序列内部按残基之间做,先输出两路信息,最后汇总给一个结构模型。
结构模型披露出来是一个3D的transformer,最后预测模型上的一些角,甚至预测SETI的一些位置,整个过程都是端到端训练。所以,就需要进一步验证挖掘蛋白质序列信息所能发挥的价值。
接下来给大家分享药物研发中非常重要的问题,活性的预测,或者说基于活性的药物筛选。
其中,AI的主要任务就是predict by the affinity,即对bind infinity进行预测。从而对小分子进行结合亲和力初筛,衡量小分子和蛋白口袋结合能力。
建模只要能衡量出来小分子对某个靶点相对binding能力就可以。
比较精准的活性数据可以从PDBbind获取,这里有上万高质量活性数据。当然也可以从专利文献中去识别、提取更多数据。
预测BF就要了解影响它的因素,包括分子构象strain energy,溶剂影响、疏水作用,静电库伦作用、范德华作用等等。
在AI进入之前,传统对接软件也是要解决这方面问题,有一些打分函数,从算法工程师角度就是线性回归模型。
模型含有各个项目,例如疏水项,氢键项,库伦作用等等,通过少量数据拟合一些参数。
通过深度学习的方法要怎么做?
首先,需要表示蛋白以及小分子,小分子表示有很多种方法,例如字符串、拓扑图表示方法、3D小分子表示方法等,基于不同表示方法,深度学习模型也有很多方法。
再介绍一个算法应用案例,分子生成其实是AI介入药物设计,或者AI介入CADD领域最早的一个方面。
传统CADD(计算机辅助药物设计)是有一些model可以基于结构和性质,对数据建立关系并做一些预测。
但传统model比较简单,没法做分子生成,所以分子生成是AI介入比较早的方面,也是望石最早发力的方面。
前面提到小分子化学空间是1060规模,基本不可能在其中进行筛选,所以可以理解为从另一个角度进行筛选。
其中不是随机生成,而是定向生成,例如做分子跃迁,生成和参考分子结构做成药性导向和强化学习,以及一些对抗生存网络导向,生成成药性更好分子。例如活性导向,希望生成特定靶向有活性分子。
但这些生成方法都依赖于,好的ADMET性质判别模型,好的活性判别方法,所以两个生成并不容易。
接下来的问题在于,分子既然要生成首先就得表示出来。
刚才提到几种方式,其中一种是片段表示方式,这是很重要的分子设计领域,对应模型生成方法,也是传统机器学习生成领域常用的一些算法,例如VAE model,GAN网络等。
这里先介绍评估方法,分子生成评估也有很多问题,例如新引擎怎么评估?
这里我们只谈这篇文章提到的评估方式,他们找到一个评估集GDB13,列举13个所有符合化学规则分子,大概找了有1亿个,其中有2000万个环体系,4000万片段,然后找各种方法去生成model,这些model都是用100万样本训练。
然后用这些model生成10亿个分子,再观察10亿个分子中到底生成什么,并与一亿个分子库比较,这十亿个分子到底生成覆盖了多少,有多少重复,占百分之多少,有没有生成超出1亿分子的奇怪分子,从这些视角来评价。
所以我们挑选了几个指标,第一就是重复率,看看10亿个分子中,有多少分子是重复的;然后看覆盖率,生成10亿分子中能覆盖1亿分子中百分比是多少;然后看多少种超出这一亿分子范畴。
一般认为这一亿个分子列举了所有合理结构,如果生成分子不在这一亿个中,那大概率会被认为是不合理生成。
这里有一个评测,可以从表中看一下:
首先是Validity,这个验证不是可合成性,而是很简单的语法规则,我们再关注重复率,重复率这个值越高则越差。
可以看到ORGAN和LatentGAN两个值都不理想,尤其是ORGAN,重复率非常高,说明GAN生成方式存在一定缺陷,如果不专门设计,GAN容易发生一些模式坍缩,重塑率非常之高。
然后从下面两个图来看,左边是覆盖范围,即model能cover多少。我们看到GAN model的覆盖范围非常低,说明发生了明显模式坍缩;而一些VAE方式要比GAN方式要好。
再看右图是超出率,即超出GDB13范围比例,可以看到,从ring system和fragment视角,两个GAN model生成了一些很奇怪的环体系和片段。
这可能是好事,但大概率是坏事,好的地方可能会生成新分子能力、新片段能力;坏地方是因为GDB13符合化学规则,这就是以后需要重点优化的方向。
接下来简单介绍一下望石智慧在AI方面的应用,主要是分为两个方面:分子设计和知识图谱。
分子设计方面,我们从靶研究开始,一直到生成PCC分子,整个流程中都有很好的工具和平台,在一些项目发挥了亮眼作用。
从上往下简单看,例如靶点发现能力和protein 3D构象分析能力,我们结合诸如MD Analysis的传统方法,也用时空领域AI建模方式去做一些困难发现工作。
例如分子设计方面,有一些分子跃迁、分子衍生,以及first-in-class基于口袋生成方法和超高通量筛选平台。
同时,我们在 FEP和超高通量筛选之间也构建了,超出传统对接软件的scoring model,进行进一步筛选。
从HIT到Lead阶段,我们更多借助QM/FEP工具,也会用ADMET的模型反向进行强化学习,以期对分子结构进行优化,基本每一个流程都会有一些不错的工具。
接下来介绍知识图谱方面,望石在知识图谱有持续进展,累积到目前挖掘了大量文献数据、结构和活性数据,以及ADMET性质数据。
我们构建了这样一张以化合物靶点生物过程为核心的知识图谱网络,可以基于此,进行生物通路、疾病机制探索,也可以提取一些化合物结构和性质进行基于母核和取代基的活性分析。
最后谈一下个人对药物研发面临一些挑战和展望。大概分这三个方面:泛化性、准确率、数据稀疏。
数据稀疏问题要分领域,因为生物领域是一个非常大的领域,面临问题非常多。
所以有些点上数据比较多,有些点上数据比较少,例如一些ADMET性质非常多,性质种类非常多,但有些性质数据非常稀疏。
泛化性问题也是比较严重的问题,很多AI模型,例如预测活性模型,在发表的paper中经常介绍它比传统方法胜出多少,但实际泛化性是受到质疑的,因为评估级往往存在数据信息泄露问题。
最后,准确率问题,有些活性数据测试实验条件不一样,会导致同一个靶点、同一个化合物活性数据测试结果偏差较大。
这是从数据角度出发,模型表达能力也需要不断优化和改进。
那是否有好的方面呢,我从很实际的角度简单展望一下。
一方面,随着 AI在各个行业发展,它的算力得到极大提升;另外,生物制药领域经过多年积累,数据也有相当丰富积累。
例如,随着基因工程蛋白序列技术发展,我们积累了大量蛋白序列、多组学数据等,以及人类目前已经有百亿级分子库,这些分子对高通量筛选、分子生成都有重要推进作用。
目前,AI领域也验证了一些大规模模型成功,去年就已经有很好结果展现出来,Alphafold 2便是一个里程碑式事件。
Q:深度学习docking跟传统的docking软件相比,有什么优势?
周文彪:深度学习docking,我们更多从概率论角度出发,能更好地把口袋接触一些柔性小分子构象变化刻画出来,当然更多也会考虑把蛋白质侧链甚至是蛋白质口袋变化融合进来,这也是传统对接软件一个比较大的难点。
另外,我们也通过深度学习方法,能够更全面刻画一些口袋内的弱相互作用,以及形状契合方面问题。
Q:从传统的内容推荐AI,到新药研发,您觉得模型研发中最大的变化是什么,两个领域有哪些地方会更加困难?
周文彪:最大的区别在于算法工程师来说,就是业务场景不同,很多底层方法是相通的,困难在于药物研发数据获取更难成本更高,设计解决方法时需要和药化专家深入讨论沟通,并对领域知识进行适当学习,一个是AI解决商业问题 一个是更严谨的科学工业问题。
Q:在算法设计过程中,应如何与药学家进行合作,将先验知识指导算法设计,从而使算法效率更高,结果更加安全科学?
周文彪:药化专家是药物研发的主体研发者,想设计有价值的IA方案 需求一定是来自一线研发者,并进行总结提炼升华,和药化专家深入沟通非常重要,要建立一整套互动交流机制,在立项,研发, case分析, 评价指标建立,后续优化等多个方面进行交流,这样AI工具才能真正落地并进行客观评价和优化。