作者丨无名
2020年10月,「碳达峰」与「碳中和」首次写入政府工作报告,低碳与可持续发展成为高价值数据中心的建设标准。
今年10月,国务院又印发《2030年前碳达峰行动方案》,提出加强以「数据中心」为代表的新型基础设施节能降碳;同期,发改委等部门发布《关于严格能效约束推动重点领域节能降碳的若干意见》,要求新建大型、超大型数据中心电能利用效率不超过1.3。
政策指导下,数据中心如何平衡技术创新与绿色节能,成为各大厂商所面临的难题之一。
从技术实现的角度来看,实现计算节能的方式有许多,当前主流的方式有热管背板、风冷、液冷等等,其中,液冷技术更是受到广泛关注,液冷数据中心也被视为云计算基础设施节能降耗的典型代表。
近日,阿里云向业界首次发布了新一代“磐久”单相浸没式液冷解决方案。这是业内第一个将高算力GPU与液冷技术相结合的解决方案,PUE(能耗效率指标)最低可到1.09,达到业内领先,不受地域气温影响。
根据12月17日,阿里巴巴集团最新发布的《2021阿里巴巴碳中和行动报告》提出,“阿里云作为数字化基础设施,在同阿里巴巴一起实现范围1和范围2碳中和的基础上,率先实现范围3的碳中和,成为绿色云。阿里巴巴将进一步推动云计算数据中心与物流的低碳发展”。
据阿里云基础设施数据中心研究员曲海峰介绍,自2015年起,阿里巴巴针对不同的冷却技术展开研究,基于架构简约、部署便捷、系统可靠、更低成本、更低PUE,最终选择发展浸没式液冷技术。
液冷分为传统的冷板式与浸没式,部分厂商的温水液冷是前者,而阿里云的磐久液冷则是后者,相当于「搓澡」与「泡澡」,区别在于服务器内各部件是否跟液体直接接触。
2017年,单相浸没液冷原型机研发完成,2018年建成全球互联网行业首个单相浸没液冷生产集群 。
在阿里云液冷数据中心,一排排的服务器被浸泡在绝缘冷却液里,产生的热量可直接被冷却液吸收进入外循环冷却,全程用于散热的能耗几乎为零,节能效果超过70%,实现了数据中心100%无机械制冷。
2020年1月,阿里云将「浸没式液冷数据中心技术规范」向全社会开源。这项规范旨在用一套标准流程为下一代绿色基地型数据中心的建设提供设计依据,通过液冷技术的普及,降低全社会的能耗水平。初步估算,如果全国的数据中心都采用液冷技术,一年可节省电量相当于三峡电站2020年全年发电量的三分之二。
今年10月,阿里云申报的“全浸没式液冷云计算数据中心创新及产业化”项目获评2021“CCF科学技术奖”科技进步杰出奖
创新散热技术与IT系统的完美融合
12月22日,阿里云在2021年中国IDC圈产业大典上发布最新一代磐久液冷产品,阿里云智能基础设施总监/液冷产品负责人郭懿群向业界首次介绍了“阿里云磐久液冷一体机Immersion DC 1000系列”。
阿里云基础设施总监、液冷产品负责人郭懿群
阿里云磐久液冷一体机Immersion DC 1000系列
阿里云磐久液冷一体机Immersion DC 1000”系列是业界首个将创新的散热技术与IT系统进行充分融合的一体化解决方案,也是阿里云基于多年来对单相浸没液冷技术推出的整体融合式解决方案。
区别于业界其他液冷解决方案,磐久液冷一体机Immersion DC 1000系列具备三大特点:
首先是超融合,传统的产品就是一台服务器、交换机,而Immersion DC 1000系列最核心的是将基础设施散热能力和IT设备、网络设备和服务器进行高效整合,融合在一起进行整体交付。其次,超强算力,包括AI40P,存储3.4P的超强能力,还有25.6T AI互联带宽端口能力,高存储、高带宽,未来可支撑至少三代技术迭代,资源利用率提升50%。第三,可在全球仁和气象区域部署,实现极致PUE1.09。
此次推出的系列包括三款产品:磐久液冷A100一体机,磐久液冷计算一体机、磐久液冷存储一体机。
计算一体机可支持48台液冷CPU服务器,通过计算和存储的模块化设计,可为用户提供高密度、高可靠、高性能、灵活配置并可在线运维的计算型基础设施服务。
A100一体机是业界首款单相浸没液冷技术与AI算力芯片超融合的产品,最大可支持16台液冷A100 GPU服务器,能提供40P AI算力,高密设计,可做到3U设计,跟传统风冷服务器在空间、密度上有50%的下降。同时具备很好的存储和网络扩展性,从内存、网络、硬盘等各个技术规格、设计上都做了非常大的冗余度设计,从而确保产品可满足不同的客户需求。
存储一体机最大可支持24台液冷存储服务器,在提供强大计算能力的同时也具备超大容量的存储扩展能力,存储和算力都基于阿里在电商、大数据方面的经验做了优化设计。
应用场景上包括:HPC、AI高算力创新数据中心,以及低碳、有合规改造、建设需求的地方。
阿里云磐久EFlops智算集群
阿里云基础设施大计算集群部总监曹政介绍磐久EFlops智算集群解决方案
阿里云基础设施从2018年开始做高性能算力集成方案研发。2019年,提供了一个在内部落地0.5 EFlops(TF32)的大规模集群。经过两年的发展,2021年已建设到“万卡”规模的GPU集群,算力规模达到1.5EFlops(TF32)。
磐久EFlops智算集群解决方案,通过高可扩展的集群架构,叠加自研集群加速软件,为大规模集群的算力释放协同进行软硬协同优化,实现超大规模的高性能算力集成,性能拓展性比传统方案提升2.76倍,实现线性的算力拓展,同时具备领先的GPU虚拟化能力。通过阿里内部大规模应用验证,在业务无感知的情况下,实现资源利用率提升3倍,更经济、更绿色、更可持续。
未来:单相浸没式液冷
在阿里云基础设施总监郭懿群看来,单相浸没式液冷在技术的演进与迭代上更靠前:
「数据中心是一个重投资行业,我们在做规划时一定要考虑到未来技术演进的无缝衔接。在设计架构上,单相浸没已经考虑到未来能无缝支持三代技术的演进,减少在迭代过程中的额外投资。」
*注:国际化标准组织ISO发布的ISO14064标准将温室气体的排放被划分为三个范围:一是自身产生的碳排放,二是通过消耗电力能源产生的碳排放,三是产业供应链的碳排放。