作者 | 包永刚
编辑 | 王川
以通信技术称霸全球的摩托罗拉曾经几乎就是手机的代名词。却只因一块彩屏、一个滑盖就满盘皆输,被诺基亚夺取了手机市场的霸权。
2007年,苹果同样也仅仅用电容触摸屏上的轻轻一划,就宣告了诺基亚时代的终结。
在命运为摩托罗拉和诺基亚的故事中,我们读到了由命运书写的诗歌中相似的韵脚。
历史不会重演,但会押韵。
同样的事情也发生在服务器市场。
20世纪末到21世纪初,计算性能介于大型机和PC之间的小型机几乎是所有企业算力的载体。
当时,IBM、惠普、SUN等巨头在小型机市场的战国争霸已经进入白热化阶段。
正在奋力拼杀的巨头们没有想到,最后终结他们的会是“小白”英特尔。
彼时英特尔正靠着x86架构 CPU在PC处理器市场如鱼得水。一朝云计算风起,英特尔乘势杀入,竟最终在这个彼时巨头环伺的市场中称霸多年。
2007年前后,消费互联网的兴起引爆了全球互联网的流量,数据量呈现指数型暴增,传统以CPU为中心的计算架构,已经难以满足超大规模数据中心的需求,就在此时,历史又落下了熟悉的韵脚。
近几年,英特尔和AMD在x86 CPU在服务器市场激烈竞争。但AWS、阿里云等主流云计算厂商也在过去几年开启了自研服务器芯片的研发,并逐步在各自数据中心部署应用。
在刚刚举行的2022云栖大会上,阿里云智能总裁宣布自研CPU倚天710已大规模应用,这是中国首个云上大规模应用的自研CPU,阿里倚天710 实例在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗降低60%以上。
在云计算迈向3.0的时代,轮到了阿里云和AWS这样的全球云计算巨头定义芯片,这些拥有自上而下自研软硬件的系统公司,为什么会是下一场云计算赛场的主角?
传统架构拦路,云计算巨头不得不自研芯片了
过去的十年间,信息的生成、处理和存储方式发生了根本性的转变。面对互联网高速发展的业务,急剧增长的用户,脉冲流量让传统的IOE(IBM小型机、Oracle数据库、EMC存储)技术架构捉襟见肘,解决算力不足的问题几乎只能靠扩大采购规模,搭建一套全新的技术架构才是最优解。
十多年前的云计算公司,最重要的任务是扩大数据中心的规模,自研芯片有些遥不可及。但有远见和抱负的云计算公司,那时起就迈上了通过自研解决问题的长路,从自己擅长的操作系统起步。
自研操作系统,能够解决云计算巨头的当务之急。传统的服务器集群采用集中式架构,这对于要管理遍布全球服务器的大型云计算公司来说是一个巨大的障碍,分布式架构才是更好选择。国内开启自研云计算操作系统序幕的公司正是当前国内云计算排名第一的阿里云,早在2009年,阿里云就启动了分布式操作系统飞天操作系统的研发。
在分布式操作系统的支持下,云计算服务提供商就有能力将遍布全球的服务器连接在一起,让算力成为可在线获取的资源。经过四年的研发和技术攻关,阿里云在2013年5月实现了单一集群5000台服务器规模,创造了历史。
有了早期的算力底座,阿里云克服了十多年来双11和12306春运购票等极限并发场景挑战。
基于分布式架构的云计算让算力获取的效率大幅提升的同时,也面临着虚拟化损耗的问题。
虚拟化技术是云计算提供商为客户按需分配资源的关键。但虚拟化技术如同黑洞般吸走了一部分服务器的性能,尽管云服务提供商针对软件层做了不少优化,减少了算力损耗,但要彻底根除虚拟化带来的算力浪费一度让云计算产业链束手无策。
既然通过软件的方式解决不了,那云计算公司就只能踏上他们并不擅长的自研硬件之路了。以AWS和阿里云为首的云计算公司的思路很简单,打造一个专用硬件负责传统芯片不擅长的虚拟化调度工作,用软硬件结合的方式解决虚拟化带来的损耗问题。
2017年9月,阿里云推出第一代神龙架构,实现了性能0损耗,首次彻底释放了云计算的潜力。神龙架构在多年迭代之后,如今已演化为CIPU系统。
自2009年以来从软件到硬件的自研,也让阿里云切实感受到了强大的技术实力能够带来的优势。过去的数年间,阿里云连续多年稳坐亚太第一、全球前三云计算厂商的位置。
如今,云计算巨头们的核心目标已经不再是业务扩张的速度,深入底层技术,提高更具性价比和满足差异化的需求成为新的目标。此时,AWS、阿里云等全球领先的云计算巨头们又不约而同地将目光投向了能够提升云计算性价比的云原生CPU。
自研CPU与云计算融合,1+1>2
“云计算发展到一定规模,想要加速创新为客户带来更多收益的时,就会发现自研芯片成了非做不可。”阿里巴巴集团研究员、阿里云弹性计算产品线负责人张献涛对雷峰网(公众号:雷峰网)说。
对于云计算的最终用户而言,直接感知CIPU的优势并不容易,能够运行各种业务的CPU能够带来明显的感知。最容易感知的当然就是性价比,阿里云弹性计算产品总监王志坤透露,倚天710云实例的性价比提升超30%,单位算力功耗降低60%。
能够带来如此高性价比的倚天710,是去年云栖大会平头哥发布的首款为云而生的高性能CPU,这款采用Armv9架构,核心数量高达128个的CPU,发布之时就引起了业界的广泛关注。
一位前海思员工对平头哥的倚天710给出了很高的评价,他说:“阿里平头哥在短时间内就能设计出倚天710这样的高性能通用CPU,确实是有很强的实力。我认为目前国内实力最强的芯片设计团队就是平头哥。”
一般而言,传统芯片公司研发一款高性能通用CPU的周期大概是5-7年。阿里云能以较短时间研发出并大规模部署自研CPU,强大的芯片设计团队之外,还有云计算和自研芯片产生的1加1大于2的效果。
“我们自研的CPU是为云而生,阿里云服务几百万客户,更了解客户的需求,在芯片定义的时候目标更加明确,自然能缩短研发周期。”张献涛说,“这与传统CPU的定义有明显的差别,传统芯片公司离最终的用户更远,并且为了保证产品的通用性,往往就需要更长研发周期。”
离应用和客户更近,也让云计算提供商自研的芯片在测试和部署方面,也有天然的优势。
比如倚天710成功流片回来之后很快就应用于阿里巴巴集团内部核心业务,2021年双11期间,天猫双11核心交易系统平滑迁移至倚天实例,算力性价比提升30%。
“经历双11的考验之后,我们对倚天710就更有底气了。于是在今年春节后,我们就开始了基于倚天710云实例的客户邀请测试,经过内外部业务场景的验证,如今已大规模应用。”张献涛透露。
不过,对于Arm架构高性能CPU,许多人可能仍心存担忧。但包括倚天710在内的多款Arm服务器CPU都证明了Arm CPU在云计算领域的潜力。
王志坤解释,倚天710的可以提供更高物理核的性能,除了我们的CPU是为云而生的原因外,还有非常关键的是阿里系统和编译器的团队做了大量的优化工作,通过编译器的优化,取得了显著的性能提升。
基于倚天710的云实例的性价比已经展现出巨大的竞争力,汇量科技广告推理精排业务使用倚天710实例在CPU性能和内网带宽上均实现了提升,综合性价比提升40%以上。
被性价比吸引的用户,仍然会担心迁移的挑战。
得益于软件到硬件的全栈自研,阿里云提供丰富的生态工具,支持全应用生态适配,0代码修改即可完成主流业务迁移。
“只要使用的是高级语言开发的应用,几乎都可以实现0代码修改完成业务迁移。”王志坤表示。
不过,相比于将传统业务迁移到基于自研CPU实现更高性价比,云计算与自研芯片融合更大的魔力在于满足更多差异化需求,面向未来的云原生应用。
云计算正在创造芯新范式
“过去,云计算业务要从硬件底层进行定制或创新时,必须和芯片供应沟通,周期很长,但科技的发展日新月异,可能会错过一些机会。”张献涛说,“有了自研的软件和芯片,每一行代码都是我们自研的情况下,不仅可以实现更好的软硬件协同,也是云计算实现计算体系变革的最好时代。”
这就意味着,在可以预见的未来,传统IT基础设施以CPU为核心的架构,将变革为以CIPU为中心的架构,CPU将成为CIPU的外设,与CIPU连接的CPU、GPU、AI加速器等将提供更加强大的算力,为更多云原生应用的出现提供基础。
云原生应用一个典型的应用就是云手游,在这一领域,新架构CPU在云计算领域相比传统架构有不可替代的优势。
“十年前的云,很多应用只是从云下迁入云上。基于倚天710带来的高性价比、高能效的云计算,会涌现越来越多云原生的应用,促进云原生生态的繁荣。”王志坤认为。
如今,已经有了一些云原生的数据库和软件系统,比如阿里的PolarDB、Flink。在此基础上,也会发展出新的软硬件开发范式。
正如阿里云智能总裁张建锋所说,“云计算的发展进入了新的阶段,芯片、操作系统和上层应用的原生融合已是大势所趋,未来十年,软硬件一体化的自研计算体系是云服务商的立身之本,只有在核心技术和产品的研发上持续创新才能抢占定义权。”
未来两年,阿里云20%的新增算力将使用自研CPU。这足以表明,阿里云将坚定在芯片领域的投入,做深基础,提供差异化的能力,继续保持在云计算领域的领导力。
纵观整个科技产业的现状,也可以看到,以苹果为代表的系统公司,已经充分发挥了自己离最终用户更近,能够通过自研芯片提供差异化以及更好的产品和服务,并且改变着芯片产业的格局。
以阿里云和AWS为代表的云计算巨头,也正在提供差异化服务和产品的路上,他们也将拥有下一个云计算时代的定义权,同时还将深远影响芯片产业的发展。雷峰网