一个月前, Open Power 高峰论坛之后,IBM Systems Open Power 总经理 Ken King 在媒体沟通会上向记者们再次强调了 Power9 架构的优势。总之,在性能上,与 X86 相比,就差他说“吊打”二字了。
一定程度上,这数据处理能力上的大幅提升有关,而 Zilliz 这家看上去不怎么起眼的数据库公司是“赋能者”之一,它联合 IBM 发布的是国内首台 GPU 硬件加速 OLAP 数据库一体机 MEGAWISE。
这对 Power9 的性能到底有多大程度的提升呢?Zilliz 创始人星爵(真名谢超)当时给了一组数据:利用 GPU 的高并发性,数据处理的性能相对 CPU 架构提高了 100 倍,同时,硬件成本降低了 10 倍,数据中心的运维、能耗成本大概降低 20 倍。
这些数据的背后就是 Zilliz 的价值所在,它从星爵极快的语速中结束,记者们看上去似乎还没反应过来。
但更让他们感到疑惑的或许是他说的第一句话:基于 GPU 硬件加速的新一代 OLAP 数据库会是一项全新的颠覆性技术。
这个时代属于人工智能,但也别忘了作为其重要基石的大数据。
放眼望去,各行业无论是堆积的历史数据,还是正产出的数据正在变得愈加庞杂,那些拥有数据的企业希望有更好数据分析服务来调整、掌控自身的业务。
但现有的处理方案,比如,基于 Hadoop 的技术虽然成本低,但分析速度难以满足企业需求,而有些采集数据的处理还具有一定时效性。
总体而言,数据库处理主要面临这两大瓶颈:一是数据计算速度,这与处理器相关,处理器越强大,算力越好,处理越快;二是数据访问速度,数据要从磁盘读取,然后转到内存进入处理器进行分析。
这两大问题在数据库发展中一直是此消彼长的存在,交替阻碍着彼此的发展。比如,通过水平扩展可以增加更多处理器,但这会降低数据访问速度。而后来出现的 A6,SSD 固态硬盘把数据访问速度提高了一个数量级,但处理架构不得不做出改变,就像数据不再是放在固态硬盘,而是在内存里。
这样问题来了,由于内存比固态硬盘又多了一个数量级的访问速度,那一旦给出更多数据,CPU 计算能力又跟不上了。于是,又只能到处理器那里做文章,以此陷入新一轮你上我下的死循环之中。
这是当时在 Oracle 做数据库的星爵一直所思考的问题。
身处在世界上顶尖数据库专家云集的系统里,他对这个产业的认知不再只是琢磨具体的技术细节,而是回归那些基础问题。
为什么数据库发展会变慢?为什么大数据有这种 Hadoop 的方案出现?为什么数据分析不可能跟上数据产生量?
归根到底,星爵告诉雷锋网,这些都是因为数据库处理系统的算力不够。
数据库的 indexes 加快了数据访问、分析的速度,它本质上是用空间来换时间,那如果有一个算力快 1 万倍的 CPU 会不会更好呢?
他想到,加了 indexes 之后数据可能只存 1TB,而现在可能要存 1.5TB 甚至 2TB 的数据。但这样,数据更新的同时也需要更新索引来维护数据一致性,这会导致插入更新数据的分析速度也会变慢,而算法也将变得更为复杂。
这又是另一个死胡同,跳出这个思维困境,一个大胆假设是干脆不要 indexes 了可以吗?
上世纪 80 年代以后,indexes 就被视为数据库的标配,但实际上,就像充电宝被看做是手机的“标配”一样,星爵认为,其实就是算力不够,“够的话,indexes 也许就不需要了”。
2012 年,In-Memory Database 系统的出现也解决了一些问题,但他并不认为这能进行高维打击——有 GPU 处理器的智能手机对功能手机就是高维打击。
此路不通,他在寻找新的能让数据库有所革新的机会。
基于 GPU 加速的数据库研究最早于 2006 年就开始了,当时主要是在 GPU 上做数据库处理算法。随后,数据库处理算法在不断扩充和优化中,与之相关的话题在每年的 SIGMOD、VLDB 和 ICDE 三大国际顶级数据库会议上被业内人士进行探讨,
但直到 2013 年,深度学习的崛起将 GPU 市场普及度推向了高潮。基于 GPU 这个新硬件平台的天然优势,人们对它的认知不再是不务正业的游戏机,而是可以成为 CPU 一样的服务器芯片。
更重要的是,以英伟达的 CUDA 为代表的 GPU 生态也建了起来,开发门槛随之降低。
“这应该就是高维打击的临界点”,星爵觉得,他一直寻找的能让数据库从量变到质变的革新终于要来了。
于是,2015 年下半年,在谢超所在的小组完成 Oracle 12c 的多租户数据库的研发后,是时候离开这个已经服役 6 年的地方了。
在 Oracle 的那些年,他经历了最初的项目立项到功能分析、需求分析,设计等整个流程。值得一提的是,2013 年,星爵所在的小组研发出了 Oracle 12c 第一版,“c”即代表“cloud(云计算)”,这是 Oracle 首个“为云而生”的数据库,它奠定了未来 Oracle 数据库发展的战略方向。
不过,这家全球最大的数据库巨头准备在云计算市场发力,正是在他硕士毕业进入 Oracle 的第一年,这比 Amazon 在 2005 年第一次提出开发云计算平台晚了整整四年。也难怪,Oracle CEO Larry Ellison 当时对云计算根本瞧不上,甚至认为那是一个愚蠢的概念。
与前老板的态度不同,星爵要去抓住做 GPU 数据库的机会了,他坚定认为这与数据库巨头们竞争时能拉开差距。
因为 GPU 的出现,让数据提供速度与数据处理速度达到了平衡态。甚至,由于 GPU 处理能力在近几年以数十倍速度不断提升,这又远超于数据供给的速度,同时基于像 IBM 的 NVLink 这种高速互联技术,尤其 Power9 服务器使用的 NVLink 2.0,让 GPU 与 CPU 之间可以建立三个通道,每个通道的速度提高到了 25G,这让 GPU 访问内存的速度有了很大提升,而老对手英特尔并没有解决数据访问带宽的问题。
对类似于 Power 系列软硬一体机而言,基本需求点就是由软件带动硬件的销售,所以在他看来,IBM 在使用了 Zilliz 的数据库软件之后,也会促进其硬件的销量。
数据分析速度问题就解决了,接下来就看能不能降低成本。
星爵告诉雷锋网,Power9 一体机每套大约 90 万元,而像 Oracle 的 Exadata 服务器成本则在几十万美元到上百万美元之间不等,这么一比,前者是占优的。
还有更重要的后续维护和能耗成本。以前,在数据库中心摆上服务器要占据半个机房,现在可能需要一台服务器就已足够,而节省了数据库中心的空间,后期运维、能耗也自然随之降低。
除了搭载在 X86、Power 这样的软硬一体机上,Zilliz 的 GPU 数据库软件也被互联网、金融、政府等行业应用,他们正在选择一些头部客户去做 POC,把数据库系统部署在它们的生产环境,以解决技术落地问题。他们今年预计会服务 30-50 家客户。
他也看好云端的 SaaS 数据库方案,认为这在未来有很大的成长空间,现在他们的客户就有 AWS、腾讯云、阿里云等云厂商。
市场还处于早期阶段。
Zilliz 目前是中国唯一一家做 GPU 数据库的创业公司,其它拿到大额融资的还有三家,其中两家在硅谷,一家在以色列。这四家公司在 OLAP 数据库市场的年收入加起来不过 2000 万美元左右。
不过,根据 Gartner 的统计数据,在 2017 年,OLAP 数据库是大约是 183 亿美元的市场,到 2020 年,预计会达到 228 亿美元。
这个领域会有成为下一个 Oracle 或者安卓的机会,星爵这样认为。
一个问题是,既然这个市场空间的想象力这么大,巨头们难道会坐视不理吗?理论上讲,像英伟达和 IBM 这样的巨头既然有硬件,那凭借这样的优势,它们介入基于 GPU 数据库软件自然也不奇怪。况且,在数据库领域还有 Oracle 盘踞一方,那 Zilliz 这样的创业公司能有多大的机会?
先从技术层面看,数据库作为底层系统软件,它的准入门槛不低,但对于做传统的基于 CPU 数据库的 Oracle 来说,它一旦选择切换到以 GPU 为核心这个数据库上,需要从硬件到软件包括存储、优化、执行到整个数据管理和调度上,基本都要重新写入,而不只是更改一些兼容性内容。这个过程看上去不那么轻松。
“它不像是手机 APP,甚至是 ERP 或者 CRM。”星爵对雷锋网解释,这就好比微软虽然在 PC 操作系统上驰骋了几十年,但在手机这个硬件平台上的竞争力几乎忽略不计,“几乎是一个推倒重来的过程。”
换个角度来看,即便巨头们虽然有能力进入,它们的共性在于响应速度会缓慢很多。
另一方面,从商业角度来说,如果巨头做 GPU 数据库软件,那必定也会冲击现有的业务线。比如 Oracle现在卖得最好的是 Exadata,这还是 2010 年把 SUN 收购以后研发而成的。那在它投入了数十亿美元的产品线,甚至还没赚回成本时,它的目标应该是卖出更多的 Exadata,如果转向 GPU 服务器它会非常慎重。
所以可以看到,近年来巨头们的策略选择也开始有所转变,一般都是先守住自己擅长的硬件,然后在软件上找相应的合作伙伴加盟开放平台,不再追求大包大揽。 IBM 成立的 Open Power 基金会就是如此。
因此,星爵并不认为 GPU 数据库这条路上他们会与 Oracle 们很快碰面。
创业公司机动性要更强,但并不意味着 Zilliz 闯入一个新兴领域会比巨头们容易很多。
公司发展战略、商务拓展、市场销售等方面是 CEO 星爵在这两年里面临的挑战,并且在未来几年或许还将持续下去。一些挑战让这个团队在这两年里走了弯路。
最纠结的还是对产品化的判断,初期如何在产品与市场找出无缝切合点让他们难以取舍,“最开始要兼容,你不能说完全做一个跟现在市场上所有(系统)都去兼容。选哪家做兼容本身也没有对错,但可能要看最终是不是能选出最有价值的客户,这可能要做大量的工作。”
针对不同方案对应做数据库,他们很快就做出了产品,但随着系统增多,这种做法让以后在技术上做扩展会更加复杂。
他们现在更希望提炼出其中的共性,然后做出统一的方案去兼容多个系统,即使研发进度会相应减缓。对于 OLAP 数据库软件来说,其实本质上做的就是一个平台,“ERP、CRM 各种企业级软件都是建立在数据库之上的。”
在星爵看来,新一代数据库技术就是能够做到把各行业的大数据完全活用起来,包括那些正在死去的数据。
为了这个目标,Zilliz 正在加快市场的拓展,他们已经与包括英伟达、IBM、伟创在内的渠道商、系统整合商进行合作。直销加渠道销售是现在的策略,这种方式让 Zilliz 既有了硬件合作伙伴,后者也成了自己的渠道商,那头部客户建立关系也会更加高效,但如果自建一个销售团队,效率不一定跟得上。
换句话说,他们今年的重心将偏向产品落地,兼顾技术与产品研发,下半年,他们也会正式在 FPGA 上做数据库的场景化研发。
现在正好是 Zilliz 成立两周年,回看当初离开 Oracle 的决定,星爵的回答很坚决:没有任何犹豫。
因为在那里上班的第一天开始,他就是为创业去积累经验的——很早他就认定自己一定是要创业的。他说自己本质上比较喜欢去追求冒险、探索未知空间。
创业这件事是充满了未知,但选择的领域确实又是他所擅长的。在威斯康星大学麦迪逊分校攻读计算机科学硕士学位时,他专攻的就是数据库,而后无论是在 Oracle 还是现在,所做的事都一脉相承。
他把硅谷文化也搬到了 Zilliz,“公司基本上是硅谷极客范儿”。
工程师身份让他吸引了一批“臭味相投”的人才加入,他希望加入的早期员工有一个共同理念:为了做热爱且有意义的事情走到一起,顺便把钱赚了。
在团队内部,他推崇个人英雄主义,希望每个人都能独当一面,这也解释了他为什么要选“星爵”——《银河护卫队》中保卫银河系的英雄——作为自己的花名。
星爵在宇宙中探索,却不知道下个目的地,而他也拥抱创业中的不确定性。“这个过程中有挑战那也是收获,这就已经足够了,”他继续说,“就算失败了,那也会成为下一个你去探索的起点。”
有一丝骑士堂·吉诃德的意味,在宇宙中四处飘荡的星爵在他眼里也挺失败的。“但如果人生都可以预知,就少了很多乐趣。”他补充道。
注:题图来源于 Behance,作者 Ilya Tselyutin