在 2016 年的云栖大会上,阿里云向外界传递了一种汹涌的气势。
除了用户井喷,技术更新以外,阿里云已经开始奠基很多普通人可以理解和感受的工程。阿里巴巴技术委员会主席王坚反复提到两个让他感到骄傲的案例:
Maxcompute,以杭州为试点建设城市大脑,作为试点的一条直路,通过云计算就可以提高交通效率11%。
批量计算,帮助中国地震局计算地层成像,获得的宝贵数据可以勘探资源和预测地震。
当阿里云产品总监李津在现场“目露凶光”地宣布阿里云降价一半的时候,已经向外界足够清晰地传递了一个信息:阿里云认为自己有足够的技术力量大幅降低云计算的成本,并且以此在云计算市场“大开杀戒”了。
在李津眼里,阿里云的攻城略地,归功于技术实力。而技术实力的核心只有一个,那就是阿里云超乎想象的计算能力。用他的话说就是:“计算能力,是所有的能力汇集在一起的能力。”
但是阿里云在商业上的成功,远不是李津的终极目标。他认为,计算能力对于人类的意义,也许超过我们的想象。他告诉雷锋网:
计算说到底是在为人类争取时间。
摩尔定律并没有失效,只不过是放慢了脚步。硬件的制程和效能的提升并没有停止,只是可能做不到18个月翻一倍的速度了。但是这并不妨碍我们的计算效率翻倍。
李津看到的计算能力提升,不仅仅是硬件自己的责任,而是硬件和软件效率的综合结果。
去年一年,中国新购的 X86 架构服务器为 200 万台左右。但是这些计算机的使用效率却只有3%-5%。
至于个人的设备,包括你买回家的PC、笔记本,每天只有不到 1% 的时间处于工作状态。就算是你使用最频繁的手机,里面的核心每天都有大量的时间处于闲置状态。也就是说,在世界上有大量的计算能力是处在闲置的状态,被浪费了。
“压榨计算性能”,是硬件摩尔定律疲软之后,李津用来提升阿里云算力的“杀手锏”。简单来说,代码要成为一条条皮鞭,不停抽打闲置的 CPU 和 GPU,从这个角度来看,摩尔定律没有死,只是用另一种形式“涅槃”了。
【英特尔公司创始人之一 摩尔定律的提出者 戈登·摩尔】
虽说根据数据来看,在软件效率的提升方面还有很多空间。但是要提升数万个核心协调工作时的调度效率,是一项巨大而繁复的工作。
虚拟化的技术是在美国诞生的。所以大多数云计算企业采用的无论是底层的隔离技术,还是数字保障的能力,都掌握在美国巨头手里。但是在阿里云的底层,我们自己写了所有的代码,这就让我们从最底层做出改变成为了可能。根据现有的数据,我们已经可以预见未来底层计算资源会大量地释放出来。这也是我们敢于降价的原因。
在李津看来,阿里云在技术上的“狂奔”,正是对人类宝贵计算资源最大的尊重。
调配芯片资源来提高“软件摩尔效率”,正是阿里云的核心系统“飞天”的职责。那么,飞天打算如何“压榨“芯片的计算性能呢?李津举了一个例子:
“CPU 所进行的大规模通用计算和 GPU 所进行的高密度计算,就像是公共汽车和跑车的区别,一个可以装进很多人,一个可以跑出很快的速度。但这两种计算方式目前很相互代替,以现有的技术来看在可预见的未来也很难融合。
至于未来会出现一个兼顾 CPU 和 GPU 优点的芯片,还是出现很多专用的 XPU,很难做出判断。
李津告诉雷锋网,让公交车跑出跑车的速度,目前看来不现实。阿里云能做的是“增强对公共汽车和跑车的管理”,让这个系统变得“总体有效”。
例如特斯拉车上装的是 GPU,因为它的自动驾驶系统,要处理很多音频和视频的信息。阿里云的飞天操作系统主要负责计算资源调度,遇到实时性要求高的计算,就使用GPU,对于实时性要求不高的计算,就使用通用计算的 CPU。
就是通过一行行代码的调度改进,可以提高阿里云整体的计算效率。
很多行业人士,包括李津都认可一个云计算的清晰进化路径:从云存储,到分布式计算,到大规模分布式计算,到人工智能。
在他眼里,所谓明天的技术,“自动驾驶汽车”“AI”,本质上都是计算能力提升到了一定阶段的进化形态。
至于在AI之后,计算能力再进化,会发生什么呢?他说:
计算能力超越一个高点之后,就会表现出“直觉”。就像我们人类的直觉一样,你难以感受到自己大脑复杂的计算过程,但是却能在很短的时间内得到正确的答案。
我觉得,世界上所有的事情,都是可以计算的。如果世界上存在一个无所不能的神的话,他对于你所有的问题,都可以给出清晰而简单的回答。
李津认为,阿里云从创建的第一天起,就是为了获得这种解答一切的能力。挣钱只是梦想的副产品。
所以,从根本上讲判断云计算能力的指标其实很简单,就是计算力。你的推进能力如果比别人弱了,就是输了。
阿里云做了很多样板工作,普通人也能感受到云计算的强大,但真正的核心计算能力的推进,人们很难看到。但这确实云计算最核心的能力,在这个世界上没有任何人能帮你,只能靠我们自己的科学家。
先知的奔走呼号,经常被人们耻笑为“痴人说梦”。从某种程度上讲,被“眼前的苟且”笼罩的普通人难以感受到人类对于计算力的迫切渴求。
李津给雷锋网讲了如下的故事。
我们无法准确预测地震,因为我们对于地壳内部的信息,知之甚少。甚至,我们对自己脚下的大地究竟是怎样的结构,都没有一个完整的成像。
为了获得大地之下清晰的图景,中国国家地震局准备通过遍布全国的上千个地震台进行测量。
之所以把对大地的成像工作交给地震局,是由于我们的技术无法做到通过打井的方式直接对大地深处进行探测,所以地震波成为了“感受”大地的最好方法。
【利用地震波实现地底成像的原理示意图/图片由王伟涛博士提供】
国家地震局的王伟涛博士告诉雷锋网,绘制出大地影像的第一步,是对不同地震台每天获得的数据进行计算。这样的计算,需要对任意两个地震台之间的所有数据分量做互相关计算。
也就是说,每一个地震台之间的每一天的每一个向度的数据,都要一次次地进行相互叠加计算。这个计算量是天文级的。
王伟涛博士在阿里云上进行了一个并不是全量数据的计算。但仅仅是这个计算,就需要对50万条路径进行计算,叠加处理的函数达到10亿个。如果使用传统的单机运算,需要的时间是10个月。
阿里云的计算力,把整个计算的时间压缩到了48个小时。
【云计算加速的流程和模式/图片由王伟涛博士提供】
李津感慨地说:
当计算结果输出的时候,我们所有的技术人员都沉默了。我们多么渴望这样的数据早几十年被计算出来,这样我们就能为人类预测地震争取宝贵的时间。如果重新来过,当我们面对曾经那些可怕的地震时,历史绝不会是我们经历的那样。但技术不会凭空降临,有时我们必须等待。
计算为人类争取时间的故事,还有很多。
中国刚刚落成的大型射电望远镜 FAST,就在用阿里云的计算力对遥远的太空进行分析。在 FAST 之前,世界上最好的天文望远镜只发现了 1000 颗脉冲星。而预计 FAST 每年就可以发现 7000 颗脉冲星。
这,让人类第一次获得如此强大的能力,来探索宜居星球。我们的征途是星辰大海,而星辰大海,拷问的是人类最顶级的计算能力。
【中国 500 米口径球面射电望远镜 FAST】
根据国家天文台给出的数据,郭守敬望远镜(LAMOST)每年产生 10TB 的数据,而国家天文台(LSST),每天就会产生 10TB 的数据,而探测 137 亿光年之外宇宙的 FAST,每天晚上产生的数据就达到 50TB。预计到 2025 年,天文观测相关的数据为每年 250 亿 TB。
对如此大量数据的分析,只有云计算可能做到。
我们生活的地球没有备份,早一天得到宇宙的真理,早一天发现宜居的星球,都有可能改变我们的命运。这不是杞人忧天,因为上帝从来不会对我们施以一丝怜悯,我们生活在宇宙中的权力,来自手中钢铁般的计算力。
这些,是无法被计算的价值。