第一批做「单细胞测序」的人，已经上云了

大内存云生命科技单细胞基因测序 I/O

作者：任平

2022/05/18 10:20

第一批做「单细胞测序」的人，已经上云了

1980年，英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖。在此后的40年时间里，测序技术发生了多次革命。

北京大学的谢晓亮教授曾表示，2007年发生的新一代DNA测序仪的革命，使测序价格的下降速度比半导体工业的指数衰减还快。

“只要1000美元，一天之内就可以完成个人基因组测序，为治疗和预防疾病提供个性化方案参考。”

2009年，单细胞测序技术首次问世。四年后，单细胞测序技术被Nature Methods评为年度技术。2015年，单细胞测序技术再度登上Science 转化医学封面。目前，单细胞测序的全球潜在科研市场体量已经达到130亿美元。

单细胞测序到底有什么好？

简单来说，世界上没有两片相同的叶子，对于多细胞生物来说，细胞与细胞之间是有差异的。传统的研究方法在多细胞水平进行，因此，最终得到的信号值，其实是多个细胞的平均，丢失了异质性信息。

这就好比一场大合唱，比的是平均水平，其中有人浑水摸鱼也不会被察觉。

从2018年起，单细胞基因测序技术就开始飞速发展。作为一项高效的医疗辅助手段，基因测序在预防出生缺陷、检测遗传性疾病、肿瘤用药等领域提供了有效帮助。

但是，这项被寄予厚望的技术，如今却撞在了一堵墙上。

冲破那堵"内存墙"

寻因生物做的，是单细胞基因测序。

这家成立于2018年、驻扎在北大医疗产业园的初创企业，在2022年1月获得B轮融资，从去年开始商业化销售。仅一年时间，已与100多家客户建立科研合作关系，并在上海、广州和成都同步设立地方实验室。

来自寻因生物信息部门的张广鑫说，“单细胞检测技术没有太大的客户偏好性，只要是在单细胞水平上的需求对象，例如制药公司、科研院所等都是我们的客户。”

不过，客户多也会带来更多的挑战。就像早些年双11的高并发会让淘宝app崩溃，同一时刻几千万人同时访问，消费者可能就抢不到限时的优惠等。所以，寻因生物也面临这个问题：超大数据量和分析复杂性，会导致任务并发度低、数据加载速率慢。

张广鑫举了一个例子，仅一个单细胞测序文件的大小可达100GB以上，而随着一个单细胞项目包含的样本量越来越多，细胞数据级别往往达数百GB甚至TB。

其次，单细胞数据的分析复杂，需要反复做数据读取和参数调整，导致处理海量细胞样本的分析任务，通常要数小时甚至数天才能完成。当样品量上来，各个样品之间又要做各种关联或者是更复杂的计算，所以对算力的消耗量就会非常大。现在，逐渐又出了很多多组学的检测，在普通单细胞的维度上又加了很多维度，对算力的需求会来到一个更高的水平。

如果说生信分析行业的本性如此，那么计算机系统架构本身的“阿喀琉斯之踵”才是问题的关键。

生物信息行业缺少一个覆盖全程的开源软件，通常一个生物计算项目需要多个软件配合。因此，第一步的输出往往是是第二步的输入，中间存在大量的I/O（输入/输出）过程。

张广鑫说到：“不夸张的说，12天中我们有10天都在I/O。而且，随着单细胞检测的成本逐渐降低，应用面越来越广，生信数据将是指数级的增长。”

所以，生信分析的惯用操作是将样本参数调低，或者仅运行一个比较大型的单细胞分析任务。但在测序任务多的情况下，多个单细胞分析项目只能排队执行。

在张广鑫看来，不考虑时间周期和算力投入的话，客户需求都能满足。但要考虑到单细胞的检测和分析将会科研和药物研发领域越来越普及，所需要分析的数据和维度都在增加的情况，生信行业不得不寻求更优化的计算架构。

他的顾虑，并不只是生信领域的问题，在AI行业也是如此。

此前，曾有AI行业的人士向雷峰网坦言，“AI训练未来的瓶颈不是算力，而是GPU内存。”做一个简单的对比：2019年GPT-2所需的内存容量，已经是2012年的AlexNet的7倍以上。

随着机器学习、计算机视觉、自然语言处理等AI应用的兴起，处理器需要更加频繁地对存储器进行访问与数据传输。传统的冯诺依曼计算机体系架构依赖总线进行存储器与处理器之间数据传输，在面对这类数据密集型应用时，往往难以兼顾低延时与高能效。

这一数据传输瓶颈现象常被描述为“内存墙”和“功耗墙”。以寻因生物为代表的单细胞领域就像是一个武林高手，需要一个更好的借力点，以施展轻功。

问题在三年前得到转机。2019年，寻因生物与阿里云开展了合作，前者曾是阿里云ecs.g5、g6、g7三代产品的用户。阿里云弹性计算产品总监王志坤对雷峰网表示，"企业客户最关心的永远不是谁跑得最快、谁拥有最极致的产品，他们关心的是性能、成本、可靠性之间的平衡。"

在王志坤看来，如何判断一家企业是否适合使用“大内存云”，有两点可作为衡量标准：

一，企业的数据量是不是足够大。由于数据量大，IO是否是主要瓶颈；

二，具体任务的计算量是不是大。由于计算量大，运行时间是否耗时。

同样，客户在选择大内存云之前也要先有建立一个CPU、内存以及IO的预估模型。但企业在预估之前，阿里云平台上涵盖了类似的行业方案，并已经经过其他客户POC验证，使得企业方案互通，行业共建成为可能。

王志坤称，这种能力是阿里云作为云厂商的独特基因，“我们更擅长的是互联网平台打法，将海量的业务场景融合起来，从而加速整个行业的研发效率。”

谈及上云的理由，张广鑫表示， “将企业本地自建机房变为使用阿里云的计算池，不仅能够保证整体算力，而且付费模式多元，用多少拿多少，不会浪费；二是阿里云多年深耕生物信息行业，已形成多种服务方案和客户资源，能够为上下游生物科技企业的互联互通提供更多支持，这是很多生物公司所看重的。”

正是有过多代产品的使用，张广鑫对“上云”的评价直接了当：算得快、成本低。

经过测算，寻因生物的单细胞基因测序，数据加载和导出性能从1000秒缩至2.5秒；单任务的样本规模是原来的2倍。在运行时间和单任务的运行时间几乎差不多的情况下，测序任务的并发运行数由原来的1个提升到了5个，任务处理效率提升了5倍之多。

从现在的结果来看，寻因生物找对人了。

一场合力缔造的"大内存云"时代

没有一次的变革不是从最直接的需求而来。

医疗健康产业由于其技术要求高、数字化水平低等特性，成为数字化最重要的应用落地场景之一。从面向药企的药品数字化全流程追溯，到面向医院的以电子病历三级医院全覆盖为首的医疗信息化改革，都折射出真实存在的行业痛点。

因此，寻因生物这样的下游客户对于“内存”的需求，也在一步步倒逼芯片商、ISV（独立软件开发商）以及在此之上的云服务提供商，不断拿出新的解决之道。

对于冲破“内存墙”，各方如此心智统一，个中原因是它们对计算机基础架构寻求“革命”的决心。事实上，发端于云主机时代的产品，在一定意义上是对传统CPU和内存堆料所不满的一次爆发。

数据分析对底层技术的需求是一个漫长的历史演变过程。虽然近年来不少企业已有上云的趋势，但过去的云主机，一直是缺啥补啥。举个例子，过去所有云主机类的产品，比如2路服务器使用最多的是X86架构，但英特尔推出来的每一代内存插槽数是固定的，单条内存的容量也是固定的。

如果还会出现算力和存储难题，解决办法是继续Scale up（垂直扩展），将2路服务器升级为4路、甚至8路，但是多CPU与内存之间的缓存一致性、主板复杂度等也会急剧上升。所以，各行业客户要么选择非常昂贵的大内存产品，要么是选择小内存组成的集群型产品。

王志坤也坦言：“阿里云很早推出了超大内存的实例，但当时的成本确实很高。”长此以往，计算机基础架构可谓是四个字：积重难返。直至，英特尔在2021年推出采用新介质的第二代英特尔傲腾持久内存200系列，一度迫于堆料的业内人士，开始求变。

英特尔相关负责人表示，2017年，随着傲腾SSD（傲腾固态盘）的推出，我们知道这是真正的游戏改变者，具有DIMM接口的傲腾持久内存的诞生也为期不远。但在当时，之所以能赋予大众这种远见，在于这款产品兑现了两年前的承诺，正式推出了基于3D XPoint介质的的SSD产品。

2015年，英特尔打造了基于3D Xpoint存储介质的傲腾技术，一举改变了传统的内存和存储层级结构。通过缩小冷热数据间的差距、减少IO瓶颈和解决数据延迟，使内存更靠近计算，为数据中心提供更高的灵活性和更多的价值。

而傲腾SSD的问世，无疑证实新介质做成了，而且极有可能是一个过渡型产品，将掀起内存产品的一次革命。

随后的故事不断描摹出新的剧本。

2019年4月，英特尔正式发布傲腾内存DIMM版本；2020年，英特尔发布傲腾持久内存100系列，成功完成大规模的商业化；2021年，英特尔发布第三代英特尔至强可扩展处理器(代号: Ice Lake) 及英特尔傲腾持久内存200系列, 生态系统更加壮大。

第一批做「单细胞测序」的人，已经上云了

英特尔® 傲腾™ 持久内存支持分层架构，从而实现高性能、大内存计算

2021年，阿里云基于第三代英特尔至强可扩展处理器和第二代英特尔傲腾持久内存200系列产品，开发了性能更加强大的不同规格实例：re7p、 r7p和 i4p，应用于更广泛的场景。

尤其是i4p，它能够提供性能极高的本地盘，相比于传统NVMe SSD在十几到二十微秒的延时水平，其延时可以缩短至170ns，非常适用于重IO型应用，能够帮助此类应用突破性能上的瓶颈。

从目前的合作形式来看，寻因生物的单细胞测序分析任务，就部署在了基于第三代英特尔至强可扩展处理器 (代号: Ice Lake) 和第二代英特尔傲腾持久内存的阿里云i4p持久内存型实例上。

寻因生物的张广鑫说到，“好的大内存云，是使用之后就感受不到它的存在，我只管专心做好我的业务。”

第一批做「单细胞测序」的人，已经上云了

大内存云架构

其次，阿里云找到合作伙伴MemVerge。

MemVerge做什么？简单来说，它推出的Memory Machine是内存虚拟化软件，相当于存储的“操作系统”。

MemVerge® 的Memory Machine™ 软件是业界第一款虚拟化内存硬件的软件，用于对容量、性能、可用性和移动性进行精细化的资源调配。在透明内存服务的基础上，Memory Machine还提供了另一个行业第一的技术——ZeroIO™内存快照，该技术可以在几秒钟内封装数TB的应用程序状态，并以内存速度实现数据管理。

MemVerge CEO范承工对雷峰网表示，“从2017年3月，英特尔推出傲腾SSD。某种程度上，这是一个新的内存存储架构。要做成‘大内存’架构的话，除了硬件，还需要有相应的软件来产生。这就是我们成立的初衷。”

他认为，每次一种新硬件的使用，都必须开发一个新的软件堆栈，使应用程序能够充分利用新硬件的优点。

通过阿里云的计算巢模式（即云厂商开放给企业应用服务商和其客户的服务管理PaaS平台），阿里云让后者的Memory Machine大内存虚拟化软件与云平台的标准化集成，加速软件交付部署并标准化运维管理，大幅提升了业务效率。

范承工向雷峰网表示，“基础IT行业会逐渐意识到‘大内存’技术对于生产力、计算速度的重要性。同时，我们通过内存快照和应用胶囊的技术，可以使寻因生物不需要经历太多的IO。三家合力，来给客户的生物分析工作提供价值。”

对于MemVerge的作用，阿里云也给出了肯定的回答。

王志坤坦言，阿里云不太可能构建起一个端到端、无缝的全场景覆盖能力，服务行业客户需要MemVerge这样ISV（独立软件开发商）进来。

“业界还存在鸿沟，而这种鸿沟需要像MemVerge这样创新的技术服务提供商来填补。通过他们的技术创新，来使用好基于阿里云和英特尔傲腾持久内存的能力，同时又能满足面向垂直行业、面向垂直扩展领域的大内存场景。”

最后，是联动阿里云内部生态。

纵观阿里云的架构，除了有自主研发“神龙”云服务器架构之外，还有“飞天”云操作系统、“盘古”存储平台、“洛神”网络平台、PolarDB云原生数据库等等，构成了统一的云平台，让阿里云具备了从虚拟化层到操作系统内核层全链路的整合与调优能力。这些能力最终使得阿里云弹性计算团队对持久内存的产品化研发变得更加敏捷。

对于基础IT市场的演变趋势，范承工坦言，“市场仍然属于早期。但在未来2-3年里，尤其是随着英特尔CXL（Compute EXpress Link）的完善，生态会变得更加完整。”

对于未来，范承工也非常期待，“阿里云是中国云计算的领头羊。所以，我们之后会继续和阿里云、英特尔合作，一方面共同培养‘大内存’市场里的客户，包括生物信息、EDA仿真、金融等其他行业；另一方面，我们在技术上也会有更多的整合和合作，让联合方案有更好的用户体验。”

成为“东数西算”战略的关键一环

21世纪是生命科学的世纪。不管是从经济成本，还是业务开展的角度考量，更多的厂商越来越往云端去走，把数据处理的部分交给专业厂商去做。

2021年7月的新一轮疫情，湖南省将流调任务交给了长沙超算中心，通过强大的HPC把时间缩短至1.4秒。但是，如果用户有大数据相关业务，那么部署到传统超算中心上将带来很大的难度，因为数据移动既耗时又耗力。这也是E-HPC诞生的初衷。

早在2017年，阿里云就发布了中国首个公共云上的弹性高性能计算平台E-HPC。彼时的“云上超算中心”，一亮相吸引了公众的目光，可一键部署弹性伸缩的高性能计算集群环境，帮助科研院所和企业处理大规模科学计算问题。

张广鑫表示，面向生物产业，阿里云能提供一些调度资源的方案，例如E-HPC的解决方案可以帮我们去简化编写流程、监控任务投递，以及任务运算的过程。

他谈到了后续寻因生物对阿里云的一些使用规划：

从算得快的层面来看，用一些更有弹性的东西，例如业务量来了之后，可以很快出来很多节点，并发去进行计算。寻因生物还要对集群或阿里云平台进行一些精细化的管理。因此，在E-HPC层面上，寻因生物仍有比较足的需求。

从省钱的角度看，阿里云的服务有不同定价，要考虑数据保存的性能和周期，再进行精细化的调整。后面寻因也会基于阿里云开发出直接向用户提供服务的单细胞分析平台，赋予科研用户和药物研发用户分析单细胞数据的能力。

从大的社会背景下看，数据和算力成为新一轮的新焦点，也给云计算厂商们带来更多的时代命题。继“南水北调”、“西电东送”、“西气东输”等工程之后，今年2月，“东数西算”工程启动，其本质就是通过构建数据中心、云计算、大数据一体化，形成一种新型算力网络体系。

国家发展改革委等部门联合印发通知，同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点，并基于枢纽规划了10个国家数据中心集群。

第一批做「单细胞测序」的人，已经上云了

王志坤对雷峰网(公众号：雷峰网)表示，“阿里云早期的机房建设是租用的形式。从六年前起，阿里云开始规划自建大规模的基地型数据中心，与东数西算里面几大算力枢纽的方向是一致的。”

其中，服务京津冀地区的阿里云张北数据中心已于2016年9月投产，大力采用风电、光伏等绿色能源，宣化数据中心也在建设中；在内蒙古枢纽，乌兰察布超级数据中于2020年6月开始提供云计算服务；在成渝枢纽，阿里云西部云计算中心及数据服务基地于2020年11月落户成都。

更关键的是，东数西算的国家战略工程，与云的模式十分吻合。因为，云计算的模式是据客户的需求按量配比，计算和存储更有弹性、安全。这与东数西算的跨区域数据调度和计算、数据中心适度聚集、集约发展，在性质上有天然的契合。

王志坤表示，“不管是我们底层的能力，还是云资源调度的能力，我们都有信心成为国家大战略中的重要一环。”