选超算还是智算？专家：去综合医院还是专科医院

超算

作者：贝爽

2021/06/25 20:08

编者按：政府要服务社会公共产业，适合建“综合医院”；企业要服务自身专项需求，适合建“专科医院”。

随着数字经济进入新发展阶段，算力已成为核心资源之一。据有关资料统计，我国各类算力中心总量超过46万个，总面积逾1000万平米，且未来将保持一定概率的增长。

然而，尽管算力这个词在近年来很“火”，但其背后的含义，却很少有人真正了解。“算力”受到关注，但背后的技术领域依然小众、认知门槛高，“如果连算力概念都不了解，那么企业、政府在规划算力中心时难免吃大亏，甚至出大事。”

基于这个问题，AI科技评论与某超算中心主任进行了访谈，在本文中讨论了算力中心建设的要点，并分析该如何正确理解算力，以及厘清该领域经常被误会的地方。

一、对立统一

算力中心有多种，大致可分为数据中心、超算中心、智算中心等，而它们都可以用云的形式来提供服务。

其中数据中心在互联网企业中常用到，用于处理数据密集、通讯密集的事务性任务，比如手机app应用的后台数据数理。超算中心更偏重于科学计算等计算密集型的任务。最后，智算中心则应用于特定的大规模AI任务。

超算和智算之间更容易被混淆，但要区分它们其实也很简单，“我们可以把超算看成综合医院，把智算看成专科医院。”综合医院、专科医院都有其存在的价值，并在动态意义上可以互相转化，由此也暗示超算和智算的对立统一关系。

对立

“很多媒体对算力中心存在许多误解，甚至都算不上是误解，很多时候连基本概念都没有搞清楚。”

近期，某人工智能计算中心宣布建成投运，不少媒体报道指出该智算中心的算力规模达到1000P，“AI算力峰值性能相当于5万台高性能计算机。”

专家表示，媒体这种说法并不专业，就像说飞机飞的比100座山还高。“一座山的高度可能是100米，可能是8848米。一台高性能计算机，可能有10个节点，也可能有10000个节点。”

另外，人们可能会认为，该智能计算中心的算力已经超越了曾获得超算TOP500榜单第一的富岳（537PFLOPS）。

但实际上，超算采用“FLOPS”即每秒浮点运算数为算力单位，而智能计算的算力单位一般会采用“OPS”即每秒操作次数为算力单位，两者是完全不同的度量单位。

此外，智能计算的性能结果（单位OPS）通常是基于半精度及整型运算测试（AI基准）得到的，超算的性能结果（单位FLOPS）则是基于双精度、单精度浮点运算测试（Linpack）得到的。

对于超算和智算之间性能的比较，专家持比较严苛的观点，其表示1000POPS性能可能相当于0 PFLOPS，“这里面涉及到能与不能的问题。具体还要看运算精度，而运算精度最终是影响到可执行的任务类型的。就好比，我们不能说十个牙科诊所相当于一个综合医院。”

计算机的精度类型包括双精度、单精度、半精度以及整数类型等，随着精度减小，其表示的数值范围依次大幅度降低，同时对应硬件能胜任的任务也越来越聚焦到特定领域。

选超算还是智算？专家：去综合医院还是专科医院注释：【100P双精度性能超算】和【1000P半精度浮点性能智算】执行任务对比

选超算还是智算？专家：去综合医院还是专科医院

注释：不同精度可执行任务对比

“在AI推理、AI训练、模拟这个维度上，芯片的应用上限由其底层构造所决定，即使采用软件优化也无法再往上提升。”

此外，有些厂商还会模糊智能计算机的推理性能和训练性能，或者在同为FLOPS单位的情况下，掩盖运算精度细节。“比如近期被媒体广泛宣传的声称达到超算TOP500第五的国外超级计算机，其实更接近于智能计算机，它的性能数值其实也是基于低精度运算得到的。”

统一

由于精度上的限制，使得智能计算机受限为专用算力，一般仅支持单个场景，而无法提供平台性的服务。比如安防领域拥有海量视频，智算中心可以只做一个任务即视频处理，并且做10年乃至20年，它都能表现的很好。“但是，让智算中心去跑需要运行数万不同类型软件的任务，那就是勉为其难了。”

因此，智算中心并不适用于公共服务型的算力中心，而更适用于企业。

超级计算机则是一种通用算力，更加擅长高精度计算，可胜任行星模拟、新材料开发、分子药物设计、基因分析等科学计算任务，以及能源、气象、工程仿真、生物基因、智慧城市等。

选超算还是智算？专家：去综合医院还是专科医院

当然，超算的胜任任务还包括人工智能，我们可以深入到芯片层面来比较。如果底层芯片采用的是CPU+GPU，那么其既能打造成超算，也可以打造成智算。因为GPU既能做双精度运算，从而通用性很好，可用于科学计算，也可用于AI的模拟、训练、推理。

而如果底层芯片采用的是CPU+专用芯片比如AI芯片，那么其只能打造成智算。因为AI芯片无法做双精度浮点运算，双精度浮点运算大量涉及线性代数方程求解，“自然界的很多问题，包括科学问题、社会问题等，最后都可转化为线性代数方程求解问题。”

选超算还是智算？专家：去综合医院还是专科医院

尽管总存在某一方向主导的局面，但专家认为，我们仍然应该两者兼顾，不能厚此薄彼。

超算和智算并不是互相排斥的存在，而是对立而统一的关系。也就是说，超算和智算应该作为两条路线分别发展，并在整体上协同，基于不同应用、服务对象建立不同的算力中心。超算相对更适合用于公共算力服务，智算更适合服务定向企业。

二、降本增效

明确了算力中心多样性的整体布局理念之后，接下来要考虑的，自然是在每一条路线上发挥最大效用，即降本增效——提升算力中心的有效性。从方法论上，可以简单总结为“花更少的钱，做更多的事。”

降本

造价越高的算力中心，不代表性能同等地提高。以粤港澳大湾区的两家算力约等的计算中心项目为例，项目A的整体算力为1170POPS，造价约为5亿元；而使用同等精度芯片的项目B整体算力为2000POPS，性能略超前者，造价却达到了惊人的近30亿元。换算下来，两者每亿元算力分别为234POPS、66.7POPS，相差350%。

也就是说，不同的算力中心在性价比上可能差别特别大。算力中心由于市场化不足，政府获得的信息不对称，使得造价不透明，一定程度造成了公共财政资源的浪费。

此外，将性能和任务相匹配，即“因地制宜”，仍然是最省钱的方式。除了上述提到了智算更专用，超算更通用以外，反过来看，不同行业适合的算力中心类型也是不同的，主要基于两个维度，即通用和性能。

比如618、双11等购物节涉及的任务类型非常多，更适合用数据中心来处理；而像气候模拟、药物筛选等定义相对单一的任务则涉及大量的高精度计算，则必须用超级计算机来处理；在互联网大数据、人工智能应用场景下，超级计算机和智能计算机均能胜任。

选超算还是智算？专家：去综合医院还是专科医院

智能计算机确实在向前发展，但专家再次强调，智能计算机所谓速度和能耗上的优势只是理论上的，而在实际应用中，智能计算机的表现不一定比超级计算机好。这背后的原因，即是“生态”——如何做更多的事。

增效

“由于专用芯片的市场占有率低，生态支持上不如通用芯片那么完善，因此其在实际运行中往往在性能、速度、功耗上不一定能超越通用芯片。智算当前面临的一大困难是生态建设，普及程度还很差。”

专家主要强调的是理论和实践的差距，而媒体宣传中可能瞄准的是另一些层面。生态一般更注重通用性和平台性层面，但最好不要笼统地对任何一种计算类型谈论生态，因为所谓通用性和平台性也是相对的。

“如今很多媒体经常说出诸如‘智算中心生态不行’的话语，这种表述既对，也不对。首先智能计算确实支持的应用很少，因此说它‘生态不行’是可以的。虽然智能计算只能用于特定AI应用，但如果在个别应用上达到一定的通用性，也能构成一种小生态。”

三、求同存异

回顾历史，计算机的发展主要遵循两条路线，即专用和通用，并且这两个趋势经常交替出现。“在某一个时刻，我们可能更追求计算机的多任务即通用性能，直到碰到瓶颈，然后我们就会开始转向另一个方向，即牺牲一定的多样性，而追求某一专项任务的高性能。性能强、效率高、应用广泛（通用）一直是超级计算机的追求，而专用芯片也在不断地尝试拓宽自己的能力边界。”

因此，尽管智算的发展目前尚属幼稚，但正如超算就像综合医院、智算就像专科医院，“超算、智算两者各有其适用的领域，应该求同存异。”

近年来算力这个词不断地被大众所提及，在新基建的大背景下，这体现了社会对算力的真实需求。

“但是，对于从业人员而言，最重要的还是脚踏实地、一步一步地把基础性工作做好，让算力真正成为竞争力和生产力。”

雷锋网雷锋网雷锋网