北大的这个交叉研究院里，为什么能走出一家AI制药公司？

CADD 英飞智药

作者：刘海涛

2021/07/25 16:39

在清华建校110周年庆祝大会上，北京大学校长郝平首次宣布，在人工智能教学和科研上，双方将联手建立通用AI实验班。

这意味着，这两家互为榜样，互相调侃多年的对门邻居，在人工智能上首次选择了并肩站队。

而事实上，在多年时间里，两所高校内部的姚班、图灵班已经先后培养和孵化出众多AI界的顶尖人才和创新企业。

仅以北大为例，先后走出了百度CEO李彦宏、前360首席科学家颜水成、微众银行首席人工智能官杨强等一众顶尖大佬。

在人工智能领域也是领头的北大，2002年成立了智能科学系，该系也是北大在人工智能领域最主要的机构，主要从事智能感知、机器学习、数据智能分析等方向的基础和应用基础研究，侧重于理论、方法以及重大领域应用上。

其曾参加多项国家级重大科研课题和横向应用研究项目，如国家重大科技攻关课题、国家重点基础研究发展规划（973）课题、863重大科研课题等30多项科研项目；先后获得重要科技奖励20多项：

其中指纹自动识别技术先后获得国家科技进步二等奖和教育部科技进步一等奖，以该项成果为基础建立了国内最大的指纹技术产业；人工神经网络说话人识别新方法的研究获得教育部科技进步一等奖；国家空间信息基础设施关键技术研究获得2000年中国高校科学技术二等奖，入选2000年中国高校十大科技进展等。

此外，北大又宣布成立了人工智能研究院。研究方向包括人工智能数理基础和认知科学基础、智能感知、机器学习、类脑计算、人工智能治理以及智能医疗、智能社会等方面。

而在最近爆火的AI制药赛道，也有一家由北大系创立的AI企业，正在逐渐崭露头角。

2021年5月，英飞智药宣布完成由丽珠制药和同创伟业领投的Pre-A 轮融资，此外在新药研发中充分利用并持续发展先进的AI药物发现技术，打造了自主知识产权的AI+新药研发平台——智药大脑TM。智药大脑是集顶级专家人才、一流AI+新药研发平台、前沿药物设计方法一体的药物发现系统。

在这家企业的背后，其创始人裴剑锋博士便是北大前沿交叉学科研究院定量生物学中心的研究员，此外，其联合创始人徐优俊和张伟林也分别是北大前沿交叉学科研究院定量生物学中心的博士和整合生命科学博士。

近日，雷锋网《医健AI掘金志》以“AI制药·下一个现象级赛道”为题，邀请华为云、西湖欧米、英飞智药、宇道生物、燧坤智能五家AI制药新秀，举办了一场线上云峰会。

作为此次活动的演讲嘉宾，英飞智药首席科学家张伟林，以《人工智能与新药研发》为题，对英飞智药的管线布局，以及AI平台做了介绍。

张伟林表示，最近几年，生命科学的一些原创性研究正在加速积累，包括靶标机制、新靶标结构以及检测和表征方法，都取得了突飞猛进的进展；而下游产业端也在愈发成熟，例如CRO，就将许多任务做得非常优秀。

但医药行业目前还存在一个关键性问题，就是“新分子发现与转化效率不足”，也就是当新靶标还处于早期阶段的时候，很少有人真的敢去提前进行布局。

这也导致我们原创药和医药产业整体处于落后地位。一个药物在临床之前，因为化合物结构已经确定，适应症也已经确定，所以药物发现过程，很大程度决定一个药物能否上市，能否创造价值，可以看做是整个行业最重要的命脉之一。

药物设计最重要就是要找到未被满足的临床需求。所谓临床需求，更多是要从患者角度来考虑，做出来的药物才能更有市场，我们目标具体定量来说，就是缩短研发周期，提高研发成功率。

对于分子对接来说，首先需要准备靶蛋白结构。当然生物体也有一个特质，就是同样功能可能会有同样折叠方式，当没有蛋白结构时候，也可以通过同源模建把结构模建出来（alphafold 2可以作到比较准确的从头预测）。

接下来是结合位点确认。在有的项目中，已经有复合物结构，也就明确了小分子结合位置，可以设计一个更好结构。

而有的时候，对于全新蛋白结构，其实并不知道配体是什么，这时就可以运行位点探测程序，例如CavityPlus程序，在表面进行探索。

接下来才是小分子对接，对接之后再对对接构象进行打分评价，进行体外细胞动物实验。

在这里我对计算机辅助药物设计，也就是传统CADD和AIDD简单进行一下比较。

CADD主要特点就是每一个工具和流程目标比较明确，而且通量整体也比较高，底层有物理化学规则支持。

人工智能辅助计算（AIDD）就需要定义一个目标，这个模型或者一套流程究竟要干什么，这需要好好规划，不然就会出现定义目标对选择框架太难的情况，最后导致罢工。

当然AIDD最好特点就是超高通量，我们也曾经做过超高通量实验，以分子对接数据为基础训练机器体系模型，发现这个模型速度能提高一百到二百倍，七八亿量级数据库，大约半天就能完成初步筛选。

以下是演讲全部内容，雷锋网做了不改变原意的整理和编辑：

首先感谢雷锋网给我们提供一个和各位线上朋友进行交流的机会。

首先介绍一下我自己，我本科专业是北京大学化学系，主要做的是物理化学；几年之后，又在北京大学前沿交叉学科研究院完成博士学位，在北京大学化学系做博士后。

2019年，我和几位创始人一起参与创立了英飞智药。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

英飞智药拥有国内非常领先的AI+CADD的开发团队，之前做CADD已经有大概20多年技术积累。我们的团队是由AI驱动，CADD作为支持辅助，一直在为新品种努力，主要是目前针对未满足的临床需求，努力发展靶标发现以及药物发现的新方法。

我们主要就是开发自主创新的药品管线，争取获得一个原始创新药物，当然我们也会为很多医药企业和研发机构提供先进的AI新药研发技术服务和解决方案。

因为做创新药是一个非常复杂的过程，所以在这个过程中要非常深入和谨慎的思考一些事情，只有这样创新药物才能有可能做出来。

我们公司目前已经完成Pre-A轮融资，内部平台——智药大脑也已经上线，它包括了30多个药物设计的方法模块，以及实用药物设计流程。

同时公司已经开展自研创新候选药研发5项，4项已经完成设计工作，IIP-001A项目获得与上市药物可比的体外生物活性，IIP-003A项目的第一轮化合物体外活性数据，接近或超过阳参活性数据，我们还与多家机构进行早期创新药物研发合作。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

今天晚上的报告大致包括以下内容：

第一部分，新药研发的相关背景；

第二部分，介绍人工智能应用于早期药物研发的方面；

第三部分，对人工智能如何推进新药研发做展望；

首先有一个问题，我们在一个什么样的时代？

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

其实我们目前处于一个Deep Learning的时代，当它第一次出现的时候，大家还都会比较迷惑。

自从上世纪1950年提出人工智能这个概念之后，这个概念就一直往前发展，在1980年到2010年这段时间，就变成了机器学习，并且在这个时期提出的许多比较先进的机器学习算法，一直到现在还在使用。

而Deep Learning进入人们的视野是在2010年之后，因为随着计算技术提高，我们有能力做更大规模计算，同时我们也有更多的数据。

在更多数据面前很多以前learning算法的速度达到上限，而Deep Learning因为技术本身的优势，还能够继续往上提高速度，我们目前就处于这个状态。

接下来我们来认真地想一想究竟什么是learning？

对于学习，我们可以很简单认为，学习就是学会在接受刺激的时候该如何正确地产生响应。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

例如开车过程，我们在开车的时候，会收到外界刺激信号，通过眼睛、耳朵以及身体去感受这些刺激信号，通过神经系统进行输出，最后用手和脚进行响应。

再比如自动驾驶技术，实际上是利用技术，利用不同感受器、摄像头、雷达以及定位等，让车子知道自己在哪儿，以及所处的环境，进而用机械来响应。

接下来看机器学习，目前主流机器学习有三种分类：

第一种有监督学习，就是对一个数据进行连续数据映射和分类。

在这种情况下，我们获得的数据一般都是有标签的数据，实际就相当于我们考试题有标准答案一样，需要建立这样一个映射，能够映射数据标签。

第二种无监督学习。无监督学习在机器学习的时代比较有两个比较著名的概念——聚类和降维。

目前Deep Learning比较火热就是生成模型，实际在无监督学习中，我们的数据是一些无标签数据，需要运用一些概率统计算法，然后对这些数据底层固有结构进行学习，然后基于这样固有结构，进行人为价值观判断。

第三种强化学习。强化学习最重要的是与环境交互而获得奖励，比如说下棋，通过与人或其他机器进行对弈，然后获得奖励，奖励的标准可以就是这盘棋下赢了。

这里很重要的一点就是与环境交互数据，学习如何采取合理行动来最大化奖励，所以在学习过程中，最重要一个问题就是要好好设定学习目标到底是什么。

如果一个目标不切实际，或者这个目标和真实需求相差太远，学习模型往往只是徒劳而无功。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

接下来简单说一下药物研发背景。

药物研发从现有研发流程来看，首先是要提出与疾病相关的靶标，再针对这些新靶标开展下一步工作，如果是小分子药物，就进行先导发现过程，发现有潜在活性的小分子化合物，这个时候，是否能够与靶标结合往往是最重要一点。

当把机制搞清楚之后，就可以向下一步候选化合物阶段发展，一般是优化小分子性质，例如生物活性、药代动力学性质、毒性安全性。

当化合物基本比较安全，性质也非常好之后，就可以开始往临床进行推；经过临床实验后，将化合物最终推向市场。

这样一套流程，最大特点就是研发周期长，费用也比较高，回报相对也比较高。

但在许多情况下，这样流程还有一些不足，例如应对突发传染性疾病，在这种情况下，如果没有预先准备，完全按照这一套来做，就会很慢。

我们作为一个国内的公司，自然要看一看国内新药研发的一个现状，目前国家生物医药资源实际上是非常丰富的，市场也是非常广阔的。

这几年，上游生命科学的一些原创性研究正在加速积累，包括一些新靶标、新靶标机制、新靶标结构以及一些非常优秀的检测方法表征方法都在很快的积累，下游工业化工作，例如CRO也日趋成熟，能够将交代的任务做得非常好。

但目前仍有一个关键问题新分子发现与转化效率不足，也就是对于新靶标，还很少有人敢去提前布局，新分子发现和转化效率仍然还是有所欠缺。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

药物发展过程这张图大家都见过，实际是一个漫长的流程，算上生物过程，前期就需要3-7年。

一般得到候选化合物再往下走，从临床前实验到临床试验，都需要漫长的观察期，才能最终上市。

我们的创始人裴剑锋也曾提到过，一个药物在上临床的之前，因为这个化合物结构已经确定，要治的适应症也已经确定了，所以药物发现的过程其实就很大程度上决定了一个药物能否上市，所以精准的药物设计工作是要在非常早期就进行规划。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

药物设计有以下的一些主要方向：

第一，要找到创新靶标与创新药物，实际上这是一种对疾病的理解；

第二，作用机理要明确，如果作用机理不明确，很有可能药上了市后，出现意想不到的副作用；

第三，就是获取苗头化合物和先导化合物；

第四，优化先导化合物，这是目前大家都能看到的。

我们的智药大脑，实际是需要结合专家经验与先进人工智能、CADD技术以及各种药物信息技术，来帮助新靶标发现以及药物发现，来最终驱动原始药物。

在这个过程中，要严守物理化学科学规则，并发挥想象力才能更快成功。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

下面来介绍一个常见的例子，即基于受体结构的药物设计。

这里需要提一下锁钥模型概念：锁钥模型就是小分子化合物结合到蛋白表面的一个口袋，它们是一种互补的关系，可以通过晶体结构来获得一个复合物。

这个过程中，我们会抽象出一系列重要相互作用，再依据这些相互作用寻找新分子。这些重要相互作用表征得更好，那么设计效果也就越好。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

接下来是结合位点确认。在有的项目中，已经有复合物结构，也就明确了小分子结合位置，可以设计一个更好结构。

而有的时候，对于全新蛋白结构，其实并不知道配体是什么，这时就可以运行位点探测程序，例如CavityPlus程序，在表面进行探索。

接下来才是小分子对接，对接之后再对对接构象进行打分评价，进行体外细胞动物实验。

在这里我对计算机辅助药物设计，也就是传统CADD和AIDD简单进行一下比较。

CADD主要特点就是每一个工具和流程目标比较明确，而且通量整体也比较高，底层有物理化学规则支持。

AI模型能够涵盖很多其他因素，而这些涵盖的这么多其他因素，如果直接编程，代码量会非常恐怖。所以，现阶段CADD和AIDD基本一起使用，才能够带来更好效果。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

接下来介绍一个比较工具，这是多维度配体的虚拟筛选。

我们把这部分放在先导优化步骤，其实本身也是有争议的，因为它应该是介于发现与优化之间的这么一个工具，我们就先简单把它归在先导优化这里来。

简单说一下基于配体的虚拟技术。

基于配体的虚拟筛选技术和我刚才讲的基于受体结构不太一样，这里实际上有一个假设：就是相似配体可以结合在相似口袋当中，也就是有可能钥匙不是原配钥匙，但也能开这把锁。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

基于配体虚拟筛选技术的一个核心概念就是：相似分子需要相似性质，这涉及分子表征问题，即如何说明两个分子很像。

目前主流技术上会做分子描述符、二维分子表征和三维分子表征，核心就是度量问题。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

分子描述符分为定量和定性两方面描述一个分子。

其中有很多性质可以来描述两个分子是否相同：例如最基础可以通过实验表征，比如光谱数据比较像不像，然后从结构式上就能看出氢键供体数目，物理化学性质。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

对于二维分子表征，二维分子指纹是其关键特征，大概有几种类型：

第一，按照路径把它看成一个图，就像一笔画一样从一个点到另一个点，走怎样路径；

第二，就像剥洋葱一样，以一个点为中心在它周围画圈，再使用哈希方式对它进行指纹化处理；

第三，用一些方式直接找其中关键结构；

第四，药效团，它实际上更多的是把分子性质作为一个散列化处理。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

除了二维指纹之外，目前也有人去设计三维分子指纹，三维分子指纹相比二维来说就会复杂一些。因为分子三维构象还比较多变，所以三维指纹目前用的还不如二维指纹多。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

总结来说，AI多维度配体虚拟筛选，其实还有很多应用场景。

例如细胞实验，它可能比分子实验或生化实验更早建立体系，可以进行高通量筛选获得活性小分子，这可能并没有确定靶标或只有假设靶标，对于比较感兴趣的小分子，会进一步在大库里搜索。

这个时候如果用对接搜索，计算量会非常大，所以直接用基于配体搜索，就像我们用搜索引擎一样把它变成字符串搜索，就能很快得到相关度最高分子。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

这是我们和合作者在去年发表的一篇综述，里面对一些分子指纹和基于配体的虚拟筛选提供一些总结，大家可以参考一下。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

这是在我们平台上做的实现，我简单介绍一下流程。

这是非常常见的场景，例如我们在读文献的时候，发现一个化合物很不错，这时就可以通过截图方式把它用AI方式直接识别成一个计算机可读的分子格式，然后直接提交多维相似性搜索，最后对搜索结果用AI模型进行全面性质评估。

这个过程非常友好，因为我们在读文献的时候突然来了一个灵感，但非常不想打断灵感打开软件一点点画出来，只想赶紧知道究竟有哪些与它相似分子，在这个平台可以得到很快验证。

我们的多维相似性搜索，提供了一共7个维度来做这个事情。

为什么目前提供7个维度呢，因为我们也是做了模型training和调整，让函数整体表示相对比较平滑，不会出现分子指纹断层问题。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

说完了基于配体的虚拟筛选，我们再来讲一下基于受体的分子生成。

分子生成是目前人工智能主要的发力点，不管是有监督和无监督学习还是强化学习，都会在这些上面进行发力。

因为分子生成是基于已有分子结构、已有活性，然后学习它们的性质，在这个空间附近扰动，获得新分子，这种情况下主要利用配体信息，也就是利用钥匙信息。

当然更多情况下，我们也可以利用锁信息，也就是利用受体信息对空间进行限制。

化合物空间实际上可能有10⁶⁴之多，但真正针对到某一个体系肯定不会有那么多，受体信息确定后，空间将被大幅缩小。

左边程序叫LigBuilder，是我们以前做基于片段的全新药物设计程序，它能够在完成全新药物设计以及多目标优化的同时，产生类药性很好，可合成性高的虚拟库。

右边是AI分子逆合成分析，是我们基于AI模型开发的逆合成方法，如果使用AI逆合成方式，结合全新药物设计，它的计算效率会有很好提高。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

这个流程我简单说一下，这基本上就是我们分子生成的设计流程。

一般我们会根据项目需求，假设我们选择了进行基于结构靶标生成，就会先进行一轮生成，然后再基于活性进行优化，优化之后还要对它进行综合评估。

就像我们前面说的AI模型对于ADMET药物性质预测以及毒性预测，已经有比较好的效果。

基于现有数据对其中毒性片段会发出一些警示信息；对于某些影响性质片段也能够做一定指示。

总体来说，我们希望能够在项目早期得到性质比较好的分子，对后面一系列实验会有很大帮助。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

我简单介绍一下我们平台智药大脑。这个平台目前有很多个工具组成，需要CADD、AI、药物化学家、药理，还有生物靶标上游很多知识汇集。智药大脑本身是为大家提供了平台对话工具，是真正用AI来驱动研发。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？

接下来我来说一下我的看法。

首先，AI辅助药物设计这件事情，目前肯定是正在开启一个新的时代，它肯定能够让药物的研发更快，成本更低，效率更高，尤其是去年AlphaGo2横空出世，确实也给我们很大震撼，真的觉得AI能够帮到药物研发。

其次，制药工业在我们国家确实是进入换挡提速的过程，我们也紧跟国外创新药先进治疗方法，有些时候甚至是需要提前布局。

但目前AI还有很多问题，对于AI辅助药物设计这种方法以及实用性仍还存在问题。诸多瓶颈问题依然限制着AI方法和技术在创新药物研发中的应用，目前多数AI辅助药物设计方法和系统的实用性仍需努力。

智药大脑最后完成之后，还需要大家一起来评价，不是简单的AI模型堆砌，而是针对实际新药研发问题应用场景，开发和整合多个底层AI药物研发工具和工作流程。

它本身就是集成了很多业界认可的一个药物设计工具，底层很强调基于物理原理的科学解释和对生物学机制的理解。

我们也希望智药大脑能够已经被业界认可的计算机辅助药物设计工具，提供基于物理原理的解释，为医药企业和药物研发机构研发自主知识产权创新药物提供完整实用的解决方案。

北大的这个交叉研究院里，为什么能走出一家AI制药公司？最后是整体总结和展望。

药物研发本身肯定是非常复杂极具挑战的过程，因为周期比较长，所以这个过程中任何一个失败都很难接受。所以AI的技术发展，为整个制药行业提供了一个新的机遇，当然挑战也是有的。

目前来看，主要就是在每一个环节和模块上，都有很高不确定性，对这些不确定性，我们能够提供更多证据链来尽可能降低不确定性，例如：

基于现有数据构建AI模型预测来提供基于统计的证据链；
基于现有数据构建AI模型预测来提供基于统计的证据链；
利用理论计算模拟提供一些可解释的证据链；
专家基于经验和各类证据链进行合理的实验设计和验证；
利用新一轮的实验数据迭代优化AI模型和理论计算模型，从而提供新的证据链。

Q&A问答环节

Q1：请教一下，您觉得目前做业务的核心壁垒在哪里？

张伟林：我们国家最近也在做交叉学科的布局，以前我们交叉学科研究院已经有过一些实践。

其实不同领域的人面对的问题难点是不一样的。

比如我以前是做计算模拟，其实到现在还是觉得有些IT问题对我来说是一个问题，但这些问题对于IT专业人员来说觉得不是问题。

Q2：AI发现出来的药物最大的难点是在分子合成砌块？

张伟林：我觉得这不一定是最大难点，因为可以结合比较简单反应来做，这一点我们和有机化学家如果能够有充分合作，和他们进行交流，有机合成到底应该是怎么做。

以前都是从前往后设计，到最后反馈合成出问题就前功尽弃，对于写算法的人来说，他可能没有专业知识，他没写这些限制，所以最后就会出问题，所以分子合成砌块我觉得并不一定是最大的难点，但确实是一个比较重要的点。

Q3：如何看待AI用于晶型预测剂型这两个环节的价值？

张伟林：还是非常有价值的，因为晶型预测和剂型预测，以前只能通过实验来做，但目前这个领域可以用AI来进行处理。

晶型其实定义更广泛一些来说，它其实是材料范畴，物理化学规则更严，所以说它能够获得很好数据，也能够很好反馈到上游。

Q4：用AI筛选的药物如何平衡活性与毒性？

张伟林：这件事情我们可以做这样一个假定，假定靶标本身没那么大毒性。

因为但靶标处在复杂的生物网络中，那么稍微干预一下靶标，可能整个网络系统都坏了，这也就意味这个靶标毒性很高，那治疗窗口就比较窄，这种情况下有可能应该换靶标或者使用靶标组合。

所以如果靶标选的好，它的治疗窗口就会比较宽，活性和毒性平衡也就会比较容易，所以靶标一定要慎重考虑好好选择。

Q5：AI研发到达成熟估计得多久？

张伟林：这个问题其实很难回答，因为比如初代Alpha fold跟同期一些程序相比优势还不是特别明显，但到下一代集成很多专家、数据以及算力之后，就达到非常高的水平。

这其实是一个迭代过程，所需要用到的资源可能不是一个小单位能够负担得起，当然目前国内一些课题组做得都非常好，也开发出一些非常先进的工具，但我们还需要继续向人学习。

我举个简单例子，虽然Alpha fold2对于一些本身结构比较好的蛋白，它已经能够做一个预测，但要说真的解决结构问题，还需要做实验。

所以AI药物研发达到成熟需要多久，我觉得会一直在路上，因为现在一些算法本身到了一定程度以后就不更新，可能就需要等它成熟以后，五年甚至十年才能知道这件事情，来告诉我们答案。

Q6：AI研发的原始数据获取来源都有哪些？

张伟林：还是很多数据来源的，例如公开数据来源、自有数据来源等都很重要，但最重要还是如何理解这些数据质量控制，质量控制是最重要保证。

如果一个数据量很大，里面什么数据都有，例如在某一个靶标活性里面，把各种各样东西甚至是没法比较东西都放在一起就会很麻烦。

Q7：AI平台physics-based modeling比较其他模型有什么优势呢？

张伟林：AI平台操作里一个特点就是有物理原理在里面之后，其实可以通过其他物理原理来对它进行检验，也就是可解释性是非常好，这是physics-based modeling本身的一个特质。如果别的AI模型，具有理解这种底层进行划分的话，同样可以很好。

Q8：英飞目前有哪些产品和管线呢？

张伟林：目前我们的产品主要是智药大脑这个平台，供内部使用，也相当于是不断打磨内测过程；然后还和我们一些合作伙伴进行应用场景探讨。

Q9：请问英飞有大分子药物的管线吗？

张伟林：我们主要部署管线是抗病毒癌症方向，当然大分子也有很多好处，大分子本身特异性还蛮好的，如果我们经费再高一点，计算资源多一点，大分子药物我们也会考虑去做，但目前我们并没有计划在大分子药物上进行布局。

Q10：我是在校计算化学学生，最近也在自学CS，您介绍基于配体分子筛选-多维度相似性搜索，其中将文献中结构式识别成电脑能懂的语言，是需要通过图像识别算法去实现吗？

张伟林：觉得广义上主要看你想怎么做，就是具体用什么算法来实现这个目的，而且还是要看算法能不能满足最终目的。

图像识别算法实际上是可以的，就是文献结构中识别为电脑能懂的，图像识别还是个蛮不错的算法，因为可解释性更好。

Q11：请问像英飞这样的AI辅助药物研发公司的商业模式是怎样的？

张伟林：主要商业模式是这样，我刚才提到我们是以创新药为最终目标，所以我们致力于开发一个用AI技术平台，基于平台驱动开发创新药物产品管线。

但新药研发的流程很长，所以也会和其它单位进行合作，大家一起做确实能够形成优势互补。

Q12：请问在治疗疾病方面，大分子药物与小分子药物哪种应用更广？哪种更有前景？

张伟林：治疗疾病这件事有时候诊断更重要，因为诊断对了之后，用对了药才会有实际效果，如果诊断不对的话，实际很难讲存活率和效果。

例如癌症5年存活率，例如PD1响应率，这些成功率都还在于对疾病机理的理解，也就是一个疾病还没有清楚原因的时候，很难讲选择什么样的路径。

但大分子本身就是因为本身比较大，性质比较稳定，所以基础性质比较好，小分子好处在于生产比较容易，保存比较方便，所以很难讲哪个更有前景，应该是并重的。