专访四川大学生命科学学院曹洋：AI 时代的药物设计需要从理论到实践的突破

曹洋四川大学药物设计学

2024/04/30 10:10

“做科学研究，不仅要认识世界，更要改造世界。”

曹洋在自己的个人实验室网站上，将物理学家理查德·费曼的名言放在了显眼的位置，让每一位网站访客都无法忽略。“What I cannot create, I do not understand.”这是他以自己的方式提醒自己和所有科研人员，莫忘初心。

20 年前，曹洋坐在中科院挤满人的大礼堂里，上一门叫做《生物信息学》的课，台上讲课的是“中国生物信息学研究开拓者”--陈润生院士。在陈润生院士的启蒙下，曹洋进入了这个当年甚至还不是一个明确二级学科的新兴领域。

如今作为四川大学生命科学学院副教授的曹洋，已经在生物信息学领域深耕数年，具体研究方向包括药物分子设计算法与应用、蛋白设计和三维结构预测及序列分析与功能预测。

在曹洋看来，科研工作不能仅停留在认识层面，只有研究成果转化为实际应用，真正做到改造世界，这是他做科研的初衷。在未来，他希望在 AI 技术的助力下，药物设计领域能达到“画好图纸”就能“盖好房子”的水平，让前期准备工作完美落实到实验阶段，提高药物研发的成功率。

近期，2024 年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题，由北京携云启源科技有限公司承办。来自四川大学生命科学学院的曹洋副教授受邀参会。

借此契机，曹洋副教授与雷峰网(公众号：雷峰网)进行了深入对话。以下为对话全文（经编辑）：

敲开生物信息的大门

雷峰网：从学科背景来看，您在本科阶段学的是应用物理相关专业，为何硕博时期转向生物信息学？

曹洋：本科时期我对物理比较感兴趣，所以选择了应用物理大方向下的电子科学技术专业。到了研究生阶段，我有幸进入中科院的生物物理研究所学习。

在 2004 年中科院入学的时候，新生要在各个实验室轮转，然后双向选择确定导师和研究方向。我当时有考虑过选择结构生物学，用 X 射线衍射方法解析蛋白的三维结构；也考虑过神经生物学，看人的认知是怎么建立起来的。

最后下定决心学生物信息学，是在研究生一年级上了陈润生院士和凌伦奖老师主讲的《生物信息学》之后。课堂上讲了很多让我耳目一新的内容，比如怎么把生物学问题变成数学问题，非常引人入胜。我还记得当时上课的场景，研究生院的礼堂万人空巷，水泄不通，很多同学没有位置，只能坐在走道上听。陈老师的讲课内容对我来说是一个很好的启蒙，受益匪浅。

那时从事生物信息学研究的蒋太交教授刚好从国外回来组建实验室，我被他有关蛋白结构预测、设计的研究吸引了，因此成为他的第一批学生。

那时候生物信息学还不是学科体系下的二级学科。我入学的专业是生物物理专业，到我毕业的时候，毕业学位证上变成了生物信息学。

雷峰网：您在本科学习的物理学知识，对您之后的研究工作有没有影响？

曹洋：影响还是挺大的。因为生物信息学是交叉学科，对数理的要求比较高。特别在早期，很多算法和软件还不成型的时候，需要自己去做开发，理解背后的原理。而我做的生物信息方向和分子模拟非常相关，比如蛋白三维结构预测，需要在结构的基础上分析生物学功能，其中会涉及到计算能量、相互作用、自由能等，如果前期没有数理知识作为基础，后面很多问题理解起来肯定会比较困难。

我也注意到，在生物信息学领域，物理学、计算机背背景的科研者比较偏向方法学研究；而生物学背景的则偏向生物学问题研究。所以不同的学科背景对后续科研方向有潜移默化的影响，但学科背景不是绝对因素，只是有这样的趋势。

雷峰网：在您看来，进入生物信息学这种跨学科领域，需要具备什么样的能力？

曹洋：我认为，要有很好的逻辑思维能力和很强的学习能力，能够迅速掌握相关的学科知识，并懂得如何在研究中运用上。

你会发现，在这个交叉学科里，需要综合应用很多专业的知识来解决具体问题，不可能只学生物、化学等某一学科的知识就足够，而没有谁是能够在大学本科就把各个专业知识都学完。所以从事前沿工作，一定要有开放的心态，有很好的自学能力，才可以跟上整个领域的发展，有进一步的创新突破。这是我这些年感受非常深的一点。

雷峰网：在中科院生物物理研究所学习期间，您的主要研究方向是什么？

曹洋：我当时主要做蛋白质三维结构预测的算法和应用。2010 年，我所在的蒋太交教授实验室所研发的蛋白质结构预测方法，进入了国际蛋白三维结构预测比赛 CASP 的前二十名，是当时国内参赛队里成绩最好的。此外，我还研究了一些生物学问题，包括流感进化突变带来的影响，比如在结构建模分子模拟的基础上，研究流感病毒和细胞受体之间的相互作用。

雷峰网：您在结束学业之后没有进入企业，而是选择高校继续科研工作是出于什么想法？

曹洋：我个人偏向在学术方面进行一些比较自由的探索。在高校的话，可以根据兴趣去选择研究课题，但在企业可能没有办法实现。当时刚好有一个机会，就入职四川大学了。

AI 入场药物设计领域后

雷峰网：请介绍一下您现在正在进行的研究工作？

曹洋：我们课题组主要研究是围绕计算机辅助药物设计展开的。这几年，我们团队将重心放在了做生物医药相关的算法和软件的开发，同时进行一些针对具体靶标的药物设计与筛选。在计算机设计方法不断落地，促进药物研发的历史进程中，我们希望贡献一份力量。

雷峰网：您如何看待目前的药物设计开发领域的发展？在开发靶向药物的计算方法方面，您有哪些研究成果可以分享？

曹洋：此前，在蛋白三维结构预测领域有一个很大的突破——AlphaFold。在药物设计开发领域，我们也期待能有这样的突破。尽管现在出现了一些新的算法和技术，但还是跟生物医药研究的实际需求有很大距离。我们团队开发了一系列的分子模拟计算法方法，比较有代表性的是分子对接 CB-Dock 系列。

雷峰网：请详细介绍一下上述全自动化分子对接算法 CB-Dock 的优势？

曹洋：这个算法平台的核心优势在于其高效和准确，用户使用门槛低。

首先，它能准确识别靶标的分子结合口袋。这里采用了前期开发的算法 CurPocket，它基于分子的表面曲率，可以在给定蛋白质三维结构的情况下提取到其分子可能结合的口袋。这个口袋识别算法和下游计算能够很好地匹配，使整个过程实现全自动化。

其次，它的分子对接可以学习已知的分子互作信息。我们开发了算法 FitDock，内置在 CB-Dock 里，在预测新分子与已知靶标的结合模式方面有很大优势。

再有，我们在 CB-Dock 的软件开发和维护方面很用心，使得操作软件和分析结果都比较容易。它面向的是广大生物医学研究同行，能一定程度上减轻他们的学习负担，更聚焦在研究具体问题上。

雷峰网：这套算法平台现在使用率如何？

曹洋：我们这套计算服务器已经发布五年，国内外同行提交了超过 30 万次计算任务，现在每天的使用量都有超过千次，相关论文的引用数量也上千。我发现在一些社交平台都有这款软件使用的视频，是国内外同行的使用体验和推荐。对此我觉得由衷高兴，感到我们的努力对社会是有用的。

这套软件用户来自世界各地，我常收到用户的邮件，咨询相关的问题，也有为我们在改进软件方面出谋划策。比如前段时间我们服务器的安全证书到期了，没有及时去更新，就有好多用户给我们发邮件说遇到问题了，问我们能不能赶紧解决。也有一些企业联系我们，申请使用软件的授权。

雷峰网：接下来对于这套算法软件的迭代更新有什么方向吗？

曹洋：前段时间，有一个斯坦福的用户给我们反馈，他建议可以在计算的过程中研究怎么样合并不同对接算法的结果，还提到了批量的受体提交模式。因为现在这个软件是一个受体对应一个配体，只能单个提交。这位用户希望可以添加批量化提交的方式，这样他们可以利用其做小规模的横向对比研究。我觉得这是一个比较好的建议，还是得想方设法满足相关研究的实际需求。

雷峰网：我注意到您的团队还建立了 AbRSA，AbAlign 等抗体分析算法，请介绍一下该算法的开发过程？

曹洋：我们也关注抗体相关的研究，这是生物药里的主要类型。前些年，我们在做抗体人源化设计的过程中，遇到一个难题，就是业界的各种分析软件都没办法对手头上的抗体样本进行识别。这激发了想要我自己开发相关算法的念头，我们花了一年多的时间，开发了一款抗体可变区编号算法 AbRSA ，解决了我前面遇到的困难。

这款算法对各类抗体或者 BCR 序列有很强的适应性，能准确地界定 CDR 区域、FR 区。在此基础上，我们又进一步提出了抗体专用的多序列比对算法，可以对超大规模的抗体/ BCR 数据测序进行处理，进而帮助抗体的筛选和设计，同时也可以作为个体免疫状态的分析。这些算法的源头，都是我们在解决实际问题中想到的。

雷峰网：这个抗体分析算法的实际应用效果如何？

曹洋：软件在发布后吸引了非常多用户，包括国外很多知名的高校，还有像美国 FDA 食品药品监督局这样的用户，以及国内的一些专利公司和做创新药物开发的公司。现在在这个领域，国际上能获得的类似计算工具大概就三款，我们是其中之一。

雷峰网：您觉得这款软件在同类型中的核心竞争力是什么？

曹洋：从算法角度上讲，它的健壮性更好，能超快速度处理大规模数据。因为抗体从基因重排到体细胞超突变，其中的多样性非常大。若想在不同序列模式上进行准确界定，就需要从算法上做比较细致的优化。

雷峰网：除了算法方面的研究成果，请分享一下您此前设计人工蛋白的科研过程？

曹洋：在十年前，要想设计全人工蛋白，大家都觉得这是困难的事情。即便前有华盛顿大学的 David Baker 教授的成功经验，但对于普通实验室团队或者没有深入了解这类研究的人看来，完成全人工蛋白的设计还存在很大的困难。而且这类实验的成功率很低，经验不足就容易失败。

我进入人工蛋白设计领域是 2016 年到 2017 年期间，当时我正在美国密歇根大学张阳教授的实验室做访问学者，在那时候参与了 EvoDesign 的开发与实践。我当时做了几个靶标，包括 EGFR 这些靶标的结合蛋白设计，比较成功地设计出了高亲和力的人工蛋白。

在设计出人工蛋白之前，我个人对这个领域还有很多怀疑。做完之后我发现，人工蛋白完全可以走向应用，相信在不远的未来，它会在生物医药研发中大放光彩。

雷峰网：您觉得人工蛋白设计技术现在发展到什么阶段了？

曹洋：我感触特别深的是在 2020 年以后，AI 技术被大量引入蛋白设计领域，可以观察到整个领域都蓬勃发展起来，其中不乏一些极富创意的设计新思路。

不仅仅是像 David Baker 团队这样的先驱，还有很多实验室都取得了长足的进步，比如说科大刘海燕教授的从头设计氨基酸序列算法 ABACUS、SCUBA，计算所卜东波教授的蛋白质序列设计算法 ProDESIGN，北航叶盛教授基于电子密度的设计算法 CUTEDGE 等，都像雨后春笋一样被提出来，并且还有很多成功应用的案例。

同时，我们也看到了很多企业在往这方向发展，他们对人工蛋白设计技术表现了很大的兴趣。人工蛋白设计正处在其广泛应用的前夜。

以创造性思维做科研

雷峰网：在您看来，当前药物设计算法领域处在什么阶段？面临的主要挑战是什么？

曹洋：药物设计算法已经取得了长足的进步，但是距离生物医学的实践需求还有较大的距离。我所期待的药物设计技术，就像盖房子一样，只要满足力学规则，就能使用软件设计出符合想象的结构。但是实际上，现在药物设计领域的技术还远远达不到上述理想状态。往往很多时候是在设计阶段想尽各种办法达到指标，满足要求，但最终实验成功的概率只有千分之一，甚至万分之一。虽然这个领域已经出现了很多分子设计的成功案例，有一些已经完成临床甚至上市，但还没有达到成熟的阶段。在我看来，现在药物设计领域面临的最大挑战在于，我们对于分子层面的规律认识不到位，计算能力不够，这样带来的结果就是不够准确。

雷峰网：对于现在想要进入药物设计领域的年轻科研工作者，您有什么建议？

曹洋：我的建议是，要保持一颗努力学习的心。整个领域进步很快，需要的知识专长非常多，几年前的知识可能现在已经落后了，所以要随时保持学习，争取走在前沿，有所突破。同时还希望密切结合应用实践，推动整个领域的发展进步。

总而言之，时刻保持学习，瞄准这个领域的重大问题去做开发、做研究。

雷峰网：您怎么看待未来 AI 制药的前景？

曹洋：引入这种人工智能系统来辅助药物设计，是近年来最大的一个突破。虽然早期的工作也用了一些机器学习的方法，但不像现在这么大规模、广泛的使用。而且新的 AI 技术建立在更多的数据基础上，拥有更好的模型。相比之前的方法，有质的飞跃。

但即便现在 AI 制药的概念和相关研究工作这么火，还是有很多没有落地，并没有在实际药物研发中产生突出的作用。我们很希望接下来，不论是实验算法也好，还是理论的研究也好，都能够转化为实际上市药物，真正地推动整个领域从理论到实践上的突破。

雷峰网：我注意到您的个人实验室网站首页有一句很显眼的名言，是费曼的名言 “What I cannot create, I do not understand.” 请问您对这句话的理解？

曹洋：很多研究是试图去解释它背后的道理，但是解释并不代表真正理解。排除所有可能性之后，如果能够创造出预设的结果，才能够称之为真正理解。

这也是为什么我们看到很多研究，在解释逻辑方面头头是道，似乎很让人信服，但一旦应用到生物医学场景，就会遇到很多问题。就以药物设计的工作来说，我们要去创造实际的分子，不能仅停留在解释现象。作为科研工作者，我们不仅要认识世界，更要改造世界，只有这样，我们对世界的认识和理解才能更加深刻。

雷峰网：请介绍一下您第二届生信大会上的演讲内容？

曹洋：我主要介绍了实验室近期有关抗体/ BCR 的数据分析、建模方面的工作进展。一方面是有关 BCR 或者抗体序列的多序列比对的新算法，在效率和准确性上达到了业内领先。另一方面是在这个基础上的抗体三维结构预测，成药性分析，就内部测试的结果，相比已知的抗体可变区预测方法，我们的准确性是最好的。我希望通过这次报告，跟国内同行分享相关的成果，也希望收到同行的建议和意见，把研究工作做得更好。

雷峰网：您在第二届生信大会上有什么收获吗？

曹洋：收获挺大的。我注意到现在生物信息领域的研究和医学实践已经深度联系起来了。有几个印象深刻的报告，比如有通过 BCR 的研究去分析人的健康状态，进行免疫力解码；蛋白设计新方法在蛋白活性和实验成功率方面取得突破；还有基于 AI 算法在毒性毒理代谢、重定位等研究的创新。我回去后还要好好消化学习。