浙江大学药学院谢昌谕：AI模型缺乏泛化能力，制药仍需在传统计算框架之下｜ AI制药十人谈

谢昌谕量子计算 AI制药

作者：乔燕薇编辑：任平

2023/05/09 15:59

“数据共享对药企模型的提升有一些帮助，但并不像大家预测中的那么大，有很多算法的细节仍有待突破，比如不同药企的数据存在不一致性等问题。”

近日，雷峰网《医健AI掘金志》推出《AI制药十人谈》系列，探究AI制药的前景与隐忧。

浙江大学药学院教授谢昌谕在与《医健AI掘金志》的对话中，提到了欧洲的药企数据共享项目MELLODDY，指出数据共享这一模式发展中存在的局限性。

谢昌谕与AI制药结缘要追溯到2018年。

谢昌谕是具有量子物理与人工智能双重背景的学者，早年间曾在麻省理工学院、多伦多大学、新加坡-麻省理工科研中心从事理论化学、量子计算、人工智能技术在AIDD、有机材料、生物传感器等方向的应用研究。

2018年回国后，谢昌谕加入腾讯量子实验室，带领团队探索适合于量子计算技术的落地方向，从而进入AI制药领域。

“（制药领域）如果想要在近期内看到比较大的研究成果，其实更依赖于传统计算和人工智能，而非量子计算。”

随着研究的深入，谢昌谕的心态也从开始的“将药物设计作为实现‘AI+量子’计算算法的跳板”，转变为真正想要在药物设计领域做出一些成果。

在浙江大学药学院教授侯廷军的介绍下，谢昌谕加入浙大药学院。

对于更适用于AI制药的传统计算与人工智能两种方法，谢昌谕也直言其各自的利弊：

传统算法具备明确的理论，其泛化能力更强，适用范围更广，但计算速度却不够快；而AI模型目前还是难以真正学到底层的因果关系，模型的泛化能力较差。

“如果对黑盒算法进行更多可解释性的分析，将其与AI模型相结合，或许会成为未来的主要发展趋势之一。”

以下为《医健AI掘金志》与谢昌谕的对话内容，《医健AI掘金志》做了不改变原意的编辑与整理。

雷峰网(公众号：雷峰网)：您早年间的学术方向偏向量子计算、人工智能等领域，是什么时候开始转向AI制药相关研究的？

谢昌谕：2018年加入腾讯之前，我的研究背景更偏向理论化学、量子计算、量子物理这方面，2019年开始涉猎AI的方向，那时是从团队的角度考虑，要寻找一个量子计算的落地方向。

我认为从量子计算的硬件等各方面条件来看，短期落地其实比较困难，所以想尝试一下“AI+量子”这两种前沿的计算技术的结合，在一些特殊的领域中有哪些可能性，从而使量子计算技术尽快落地应用，让社会受益于这些前沿技术。

在这个过程中，我们调研了不同的行业，综合考量每个行业的特质，以及这些行业能够为社会产生的价值，还有我们团队成员的学术背景等因素，最后觉得制药是一个不错的选择。

而且根据观察，很多跨国药企对人工智能、量子计算、自动化、计算化学等各种技术兴趣非常浓厚，一些公司在这上面的投入也很可观。从这个角度来看，制药也是一个很好的方向。

我们对这项研究原本的期待是，既能进行“AI+量子”的技术研究，同时也能获得药企的认可，对药物研发做出一些贡献。

但是进行更加深入的研究之后，我们发现，如果想要在一定时间内看到比较大的研究成果，其实更依赖于传统计算和人工智能，而非量子计算。

因此，从2019年开始，AI制药就逐渐变成我花费精力最多的一个研究方向。

雷峰网：2022年，您离开腾讯量子实验室，加入浙江大学药学院担任教授，当时有什么契机使您决定回归学术界？

谢昌谕：腾讯量子实验室提供的科研环境非常好，招聘了很优秀的研究员，进行了很多领域的交叉研究，从科研上讲很有成就感。

但腾讯量子实验室的核心目标是最大程度推动量子计算技术的发展，我一开始的想法也是想要将药物研发作为一个出口，让量子计算在其中发挥作用。

随着我在AI制药上投入的时间越来越多，对这个领域有了更深刻的领悟，再加上新冠疫情的影响，我的心态发生了一些改变，从最初的将药物设计作为实现“AI+量子”计算算法的跳板，转变为真正想要在药物设计领域做出一些成果，反而不再介意使用的方法是传统的计算物理还是AI、量子。

我的想法发生变化之后，就希望在研究上能够以药物研发为中心，获得更多这方面的资源支持，恰好之前和浙江大学药学院的侯廷军教授有合作，通过他的介绍来到浙大药学院工作。

雷峰网：不久前，碳硅智慧发布了AI新药研发平台DrugFlow1.0，作为碳硅智慧算法科学家，您在DrugFlow1.0的设计、研发、后续商业探索上主要参与了哪些工作？

谢昌谕：现阶段在碳硅智慧的工作中，我希望技术层面取得一些突破，聚焦小分子药物设计方面的前沿算法，或是在理论层面的更多尝试。

比如在设计大模型的过程中如何更好地学习分子表征，如何更好地结合传统计算物理和深度学习来实现一些更具理论支撑的药物设计方案等，这些工作是更偏研究与探索性质为主。

这也是我选择碳硅智慧的主要原因，在研究上，我能够去尝试一些对药物设计可能更有价值的理论和想法，找到其中能够走得更远的可行方案；

在落地上，碳硅智慧有专业的团队和丰富的经验，能够在算法和模型的技术细节上做更多的优化，工程化的实现也更加专业。

雷峰网：在AI制药领域，传统算法与人工智能算法分别有何利弊？如何相互结合？

谢昌谕：传统算法中比较有代表性的如分子动力学模拟与结合自由能的计算，其优势在于具有比较明确的理论，我们就可以从理论的角度来判断这个算法在什么场景中是相对可靠的。

同时，这些算法的泛化能力较强，适用范围会更广一些。

传统算法也存在一些问题，比如需要使用者具备更多的专业知识储备与实际操作的经验积累，才能对算法进行研究。即便是使用相关软件，也需要较高的知识门槛。

另一个痛点则是，传统算法虽然理论清晰，但计算速度不够快，有时由于各种假设与近似的原因还是不够精准，所以在药物筛选的过程中实用价值比较有限。

相比之下，AI模型如果有合适的数据进行训练，速度会快上很多。在一些测试场景中，AI模型的效果非常精准，但是往往到了真实的药物研发场景中，大家就会发现它使用起来没有很多科研论文里描述的效果那么好。

主要原因是AI模型没有真正学到底层的因果关系，所以模型的泛化能力很差，如果没有新的数据做支持，模型就很难适应新的场景，换而言之，模型会出现一些过拟合的表现，甚至学习到数据本身隐性偏差的问题。

所以使用AI模型时，你有时候并不知道什么时候能够真正地信任它，如果对黑盒算法进行更多可解释性的分析，将其与AI模型相结合，或许会成为未来的主要发展趋势之一。

以小分子制药为例，如果结合自由能的预测，或是基于靶点口袋的分子生成，或是对先导化合物进行优化改造，将微观物理的信息融入到深度学习框架之中，这个模型就能够更好地学习到真实的因果关系或物理规律，模型的鲁棒性和可靠性也会得到大幅提升。

另一个方向则是直接用AI来加速传统计算，在传统计算的框架之下，用AI来解方程，有希望在不丧失计算精度的情况下大幅提升计算效率。

雷峰网：在算法层面，AI制药平台之间能否形成技术壁垒？

谢昌谕：如果单看一个小模型，我认为比较难形成技术壁垒。

不能形成技术壁垒其实也可能是一个好事情。

现在很多被广泛使用的模型本身就是源于互联网或其他行业，比如自然语言处理、图像识别等领域的算法，研发者将其开源之后又被AI制药的研发人员拿过来优化、使用。

在这样的大环境之下，研发者们被鼓励将自己的算法进行开源，促进整个领域的发展。

此外，如今深度学习领域有很多好的建模软件和工具，可以帮助非专家级的使用者轻松地将不是特别复杂的模型调到稳定水平。

从算法的层面来说，很难形成技术壁垒，但对于大模型而言，就比较容易形成壁垒。

虽然模型的设计思路是透明的，但是如何收集、清理训练模型所需的数据，以及训练庞大模型的技巧等等，这些复杂且大规模的工作更容易产生技术壁垒。

雷峰网：数据问题一直是AI制药领域的痛点，已经成为目前制约AI药物研发的重要因素之一。

目前已经有企业尝试建立数据共享平台，在保证数据隐私的前提下，推动药企之间的数据共享，在您看来这种合作形式是否符合AI制药平台当下的需求？

谢昌谕：如果能够实现共享数据，肯定是利大于弊的，联邦学习等技术一定程度上能够保护数据的隐私，如果药企都参与进来，就可以得到表现更好的模型。

在欧洲有一个项目叫做MELLODDY，即Machine Learning Ledger Orchestration for Drug Discovery(机器学习分类帐编排的药物发现)。

强生的子公司Janssen Pharmaceutica NV（杨森制药）是该项目的制药行业负责人。

项目汇集了杨森制药、安进、安斯泰来、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、默克、诺华和施维雅等10家顶尖制药企业，两所高校，四家初创公司，以及IT企业英伟达。

该项目旨在创建一个建模平台，在该平台上可以利用多家制药企业的数据，创建更准确的模型，以确定药物开发最有效的化合物。

在不久前的DrugFlow1.0产品发布会的圆桌讨论环节上，也得知MELLODDY项目的一些进展。

比如，该项目对药企模型的提升有一些帮助，但并不像大家初期预测的那么大，有很多算法的细节仍有待突破，比如不同药企的数据存在不一致性等问题。

所以，并不是大家把数据拿出来共享就能马上取得很大的突破，其中还有很多困难需要克服，从欧洲的案例中我们也可以看到在技术层面需要优化的很多细节。

不过，长远来看这肯定是一件好事。

雷峰网：2022年，AlphaFold2与ESMFold分别宣布预测出数亿种蛋白质，AI技术在蛋白质预测上的不断突破，对制药领域有哪些影响？

谢昌谕：AlphaFold2和ESMFold等产生的价值是清晰可见的，无形之中增加了大家对AI这个领域能够的信心，从而持续进行资金或科研上的投入。

单就蛋白质折叠这个问题而言，目前已经取得了很大的进展。

最近特别热门的ChatGPT等生成式AI也是下一波发展的契机，将会为科研人员的生产力、科学研究的生产效率带来提升。

更具体地来看，AlphaFold2和ESMFold这一类算法，最早影响到的就是基于蛋白质结构的材料设计与药物设计，从David Baker团队的蛋白质结构设计工作中也可窥见一二。

结构预测模型使蛋白质设计获得了非常迅猛的进展，对药物递送、药物开发等工作产生了直接的冲击。

就我所关注的小分子而言，很多靶点目前还没有合适的结构，现在利用AlphaFold2的技术，大家也在探索是否可以预测一些适合进行药物开发的靶点口袋。

AI制药企业英矽智能此前就做了一些类似的工作，基于AlphaFold2进行药物开发。

这些进展都是实实在在的证明，AlphaFold2和ESMFold这些工具经过未来的持续优化，也会在药物设计领域逐渐占据重要的位置。

雷峰网：AI技术天然具有快速迭代的特征，制药却是一项战线漫长的工作，兼具这两种特征的AI制药，应该怎样融合两种思维？

谢昌谕：现在的AI技术的确发展很快，但这并不完全是AI技术本身的特质。

节奏快更多是互联网企业的特征，只是目前很多很好的AI工作都是由互联网公司完成的，可能大家因此认为所有AI技术一定都是快速迭代的。

此外，目前AI制药领域的初创公司，其实更多还是聚焦在早期药物研发的阶段，比如药物发现等等。

在这些环节中，利用AI等技术已经能够缩短研发时间，所以战线也不算特别长了。

因此，就节奏快慢而言，AI技术与早期药物研发似乎并没有太大冲突。

比较关键的是，做计算的可以不断地去试错并调整，但做药的人往往会更谨慎的去对待不同的实验尝试。

面向药物研发这样复杂的工程难题，一个团队里也应该存在不同的价值观或声音，大家通过交流，协商出更好的解决方案。

浙江大学药学院谢昌谕：AI模型缺乏泛化能力，制药仍需在传统计算框架之下 ｜ AI制药十人谈

浙江大学药学院谢昌谕：AI模型缺乏泛化能力，制药仍需在传统计算框架之下｜ AI制药十人谈