2014年,阿里西溪园区的一间会议室里,一群全世界最优秀的数据工程师陷入了激烈的争吵。他们慷慨陈词,争得面红耳赤,谁也说服不了谁。这种场面在长达近一年的时间里反复上演,所有置身其中的人都感到前所未有的痛苦和迷茫。
追溯这段争吵的根源,需要把时间的指针拨回到两年前。
2012年7月10日,阿里对外公布了一项人事变动:集团将设立首席数据官(CDO)岗位,由陆兆禧担任,直接向马云汇报。在不少人看来,这其实是陆兆禧接任集团CEO的前奏。
坊间有这样的猜测并不奇怪,因为阿里素来是一家重视数据的公司,首席数据官这个角色的重要性不言而喻。况且,集团不久前刚刚提出了“one company”战略。
2012年正是阿里历史上著名的“万马奔腾”时期,支付宝、淘宝、阿里金融、B2B等几大子公司齐头并进。当时每个子公司都有一个自己的数据部门,随着数据量暴涨,这种“各家自扫门前雪”的模式不但在成本效益上不划算,也无法让各个子公司发挥协同效应,产生更大的合力。“one company”战略正是在这样的背景下提出的。
这个战略的核心是在阿里集团内部建设一个“数据分享平台”,支付宝、淘宝、阿里金融、B2B等几家子公司的数据都将成为这个平台的一部分,经过挖掘、分析和运用后,分享给全社会。毫不夸张地说,这是阿里历史上的一次百年大计,而负责推动这项战略的正是新任CDO陆兆禧。这份担子有多重,明眼人都看得出来。
本着“one company”的原则,陆兆禧上任后做的第一件大事就是将各个子公司与数据平台相关的部门合并,成立了统一的数据平台事业部。随着数据平台事业部成立,几百名阿里最优秀的数据工程师第一次走到了一起。当然,也有人是久别重逢,比如张金银(花名“行在”)和陈吉平(花名“拖雷”)。
张金银和陈吉平最早是在“百年阿里”培训班上认识的,两人都在2004年5月以专家身份入职阿里。
阿里的传统是,新员工入职时要和当月入职的新人一起参加为期两个星期的脱产培训——也就是“百年阿里”培训班,学习阿里的企业制度、组织文化和未来愿景。张金银和陈吉平那一期培训班大概有20人,两个星期相处下来大家都比较熟络,他们亲切地称呼彼此为“同班同学”。
回忆起那段岁月张金银不无感激。因为放在2004年的时代背景下,阿里这样一家刚成立5年的创业公司,愿意如此花大力气在员工身上做投入,可谓十分超前。
培训班结束后,张金银去了阿里巴巴(今天的B2B事业部),负责首个数据仓库的建设,2009年又担任了阿里巴巴集团第一任数据安全小组组长,拥有不错的职业开端。
入职淘宝的陈吉平际遇则要更加坎坷一些。当时B2B业务是公司的绝对核心(2007年11月曾在香港独立上市),而淘宝还只是一个项目组,根本无法相提并论。
陈吉平至今依然记得自己刚去淘宝时的情形,“在二楼一个不大的办公室里,人不多,办公环境乱糟糟的,服务器就在办公室后面,发出嗡嗡的响声。”
尽管陈吉平也参与建设了淘宝的首个数据仓库,但囿于淘宝当时的地位,给外人的感觉还是要矮上一头。
这种情况直到2008年前后才发生变化,那一年淘宝的业务和数据量迎来了爆发式增长。作为To C业务,一旦迈过爆发的临界点,其释放出的能量自然是To B业务所无法比拟的。因此,之后阿里遇到的很多技术挑战都来自于淘宝业务线,淘宝技术团队的地位随之水涨船高,而陈吉平也迎来了自己职业生涯的高光时刻。
当时淘宝的数据仓库还建在Oracle RAC上,陈吉平记得,因为淘宝的数据量增长实在太快了,而单个节点的存储能力又有限,他们只能不停地扩节点。“扩到了20个节点还是跑不动,可这已经是亚洲最大的Oracle RAC集群了……而且当时亚马逊建了一个最大的Oracle集群,也只有20个节点”。
外界可能无法理解这件事情的重要性,但它却惊动了Oracle美国总部。陈吉平还因此受邀去OOW会议做了一次案例分享。
拖雷在美国OOW会议上
这件事也直接推动了阿里的去IOE化。阿里内部当时算过一笔账,如果继续沿用IOE架构,未来几年它的营收可能还赶不上服务器费用的支出。也就是说,如果不去IOE化,阿里很有可能会被数据给拖垮。
2012年,在“one company”的战略大方向下,阿里以淘宝的后台技术部门为主体,合并其他事业部的后台技术团队,成立了数据平台事业部,由当时淘宝数据团队的老大汪海(花名“七公”)出任负责人。
随着数据平台事业部成立,张金银和陈吉平殊途同归,又重新回到了同一起跑线。一同并入数据平台事业部的还有甘云锋(花名“风剑”)和李金波(花名“介然”)。
李金波是2008年进入阿里的,最早在淘宝的广告事业部负责广告数据研发工作。2012年初,阿里启动“冰火鸟”项目,计划把由李金波负责数据研发的“数据魔方”(2015年底由“生意参谋”接替)产品迁移至阿里云飞天平台,实现淘宝数据的对外开放。
为了顺利完成这一任务,李金波和另外两支团队“被关在小黑屋里”进行了长达大半年的技术攻关。2012年10月,“冰火鸟”项目一期正式上线。几乎同一时间,数据平台事业部成立,李金波随之和张金银、甘云锋一起被分配到了数据平台事业部下面的DXP团队。
当时李金波所在的团队主要负责将淘宝、天猫、B2B等各个事业部的数据进行整合打通,最终反哺到各个事业部。正是在那时候,阿里提出了“存通用”的概念。
李金波记得,数据平台事业部成立的第一年,日子过的非常艰苦。因为当时用的阿里云平台还很不稳定,经常导致数据加工链路失败,容易对上游各事业部的业务造成影响。为此,他们挨了业务部门不少骂,包括汪海在内的许多人都承受了巨大的压力。为了解决数据产出稳定性的问题,团队专门抽调了一批技术人员进行夜间值班,这些值班人员有一个统一的名字“batman”。“正是因为这些蝙蝠侠的努力,才保障了整个集团对数据的应用”。回忆起那段岁月,李金波感慨地说道。
甘云锋是四个人中最晚进入阿里的,此前他曾长期任职于华为、金蝶等多家国际知名企业,从事数据开发相关的工作,也是大数据领域一名身经百战的老兵。2011年,甘云锋在张金银的招募下进入阿里,成为了接下来几年时间里后者最可靠和得力的搭档。
让张金银、甘云锋、陈吉平和李金波四个人走到一起的数据平台事业部,后来在技术上取得了巨大成功。部门成立仅仅两年时间,就为阿里贡献了两项非常重要的基础设施:第一项基础设施是由现在被誉为“阿里人工智能客服‘小蜜’之父”的赵昆(花名“空无”)带队攻关的5K项目;第二项是张金银主导创建的消费者信息库TCIF。
5K项目是阿里发展历程中极为浓墨重彩的一笔,它是为了解决阿里云飞天集群超过5000台机器的问题而专门成立的项目。飞天集群在创立之初并没有预料到,阿里的业务发展如此迅速,这么快就产生了如此庞大的数据,需要用到5000台机器的集群。
5K项目要做的事情,简单来说就是把机房里的5000台机器当做一台来使用。“你扔1PB数据进去,它能够自己调度和计算,计算完再把结果合并统一输出。”这个过程听起来不复杂,真正要实现却非常困难,中间涉及到大量复杂的调度算法。
为了保证5K项目顺利完成,上百名顶尖工程师开始了长达数月的艰苦卓绝的技术攻关,张金银、陈吉平、甘云锋和李金波都在其列。“阿里云之父”王坚博士在回忆5K项目时曾经提起过一桩轶事:一位参与项目的工程师,他的女朋友周末专程从合肥来杭州看他,但为了5K项目顺利完成他不能离开岗位,于是女朋友只好默默地陪着他一起加班。其艰辛程度可见一斑。无怪乎王坚博士会动情地感慨,“我们一定要把他们的名字一起留在5K标志上。”
5K项目的成功使得阿里成为了中国第一个独立研发拥有大规模通用计算平台的公司,也是世界上第一个对外提供5K云计算服务能力的公司,因此当时不少媒体把它誉为“中国云计算最值得纪念的时刻”。为了纪念这一时刻,阿里在转塘阿里云创业创新基地专门建了一座“飞天5K”雕塑,把所有参与项目工程师的名字刻在了雕塑底座上。
“飞天5K”雕塑
除了5K项目,张金银主导,和甘云锋(负责业务架构)、李金波(负责数据开发)等人一起创建的消费者信息库TCIF也是阿里非常重要的一笔资产。TCIF的核心是将阿里所有的消费者数据进行整合打通,以此为基础可以通过大量算法精细地刻画消费者画像。它最大的价值就在于,推动阿里妈妈的广告投放和淘宝的商品推荐实现了千人千面,阿里妈妈的广告营收更是因此翻了好几番。
张金银并不是第一个想到做TCIF的人。张金银接手的时候有人劝他放弃,说“前面已经做死了三波工程师”,认为他肯定也做不成,但他还是决定放手一搏。
回忆起在数据平台事业部的岁月,张金银感慨,“每一年都很难,没有哪一年是轻松的”。但在甘云锋看来,最难的还是2014年。
2014年,随着5K和TCIF项目相继成功,阿里的数据平台能力获得了极大提升。能力变强之后,心就会野,会想做更多的事情。这时候,汪海想起了2012年集团提出“one company”战略时建设“数据分享平台”的愿景,他认为时机已经到了,于是提出商业化的目标。
商业化的构想固然美好,但实践起来却面临着许多现实问题。首先,当时阿里的数据技术和理念领先了业界五到十年,因此它内部正在使用的高级数据产品和工具,外面的企业根本不会用也用不着。这意味着他们必须把“自动化武器”降维成“小米加步枪”来对外输出。
其次,数据平台事业部过去一直服务的是集团内部,外部客户的真实需求究竟是什么样的,他们并不完全清楚。况且,做技术输出不可避免会遇到外部客户与集团内部业务利益相冲突的问题,如何在中间找到平衡点需要极大的智慧。
因此,当时数据平台事业部形成了两大派系,一派提出要对外商业化,另一派则主张平台应该服务于集团内部。双方各执一词,彼此争论不休。部门组织了很多次共商会,试图寻求共识,但总是无功而返。“大家都处于一种非常迷茫的状态……可以说2014年前是充满希望与喜悦的探索,2014年之后是在黑暗中充满焦虑的探索。”李金波对雷锋网回忆道。
当时整个阿里巴巴集团也处在剧烈的动荡之中。2014年春节,微信红包“偷袭珍珠港”,极大地触动了马云。这个春节还没休完假,他就把公司所有高层召集到一起开会,最后提出了“all in 无线”的战略。数据平台事业部的时任负责人汪海也在这次调整中被派去了无线事业部开疆辟土。
新接任的负责人老A为了消除内部分歧专门组织了一次团建,这成了李金波毕生难忘的回忆。团建地点是国家地下山洞探险队桐庐训练基地的一个地下溶洞。溶洞很窄,只能容许一个人弯腰通过,一旦进去了便没有回头路。李金波是队伍中体格最大的,他进去后弯腰走了几步就支持不住了,最后基本是爬着走出去的。
溶洞里很黑,水也很冷,底下还有很多尖利的小石子。从溶洞出来后,李金波的手臂、膝盖和肚皮被划出了很多道血淋淋的口子。
最艰难时刻的团建(中间一列第二个为甘云锋,第四个为李金波)
这次团建后,团队达成共识基本确立了商业化的方向。2014年底,数据平台事业部在5K项目的基础上提出了5K+项目,由李金波担任项目经理,目的是将阿里的大数据工具做成平台型产品对外开放,这成了后来阿里中台的最初雏形。然而,很快新的矛盾又出现了。
与大多数互联网公司一样,阿里内部也十分推崇赛马机制。技术部门之间彼此竞争,争夺自己的“客户”——业务部门。当时,数据平台事业部下面也有很多小的部门,每个部门都有一套自己的产品,大家互相角力。
张金银所在的部门主要服务于阿里妈妈和淘宝的运营团队。他依然记得那时候自己去阿里妈妈“拜访客户”时的情形。“当时阿里妈妈在文一西路的广告产业园,我们在西湖国际,有很多个中午我顶着大太阳走在路上,去给他们介绍我们的产品。”
竞争一直存在,但过去大家服务的是企业内部,方向相对集中。数据平台事业部确立商业化的大方向后,分歧变得空前严重。
数据平台事业部汇集了全阿里最优秀的数据工程师,大家都很能干,而且有自己的想法。商业化到底该不该做?该怎么做?每个人都有不同的观点,彼此争论不休。作为项目经理,李金波夹在中间颇是左右为难。
动荡最终以数据平台事业部被并入了阿里云而告终。当时阿里云的统帅是胡晓明(花名“孙权”),他在阿里内部被认为是天生的商业奇才和战士,“可以冲到一线去打仗”。阿里云成立之初也曾一度陷入混乱,大家浏览器、输入法什么都做,但最后往往什么都无法做到最好。正是胡晓明上任后快刀斩乱麻,迅速确定了“只卖四大件”的发展战略,阿里云才开始走上正轨。
集团看到数据平台事业部的混乱局面后,决定让胡晓明来接手,认为以他敏锐的商业嗅觉,一定可以带领数据平台事业部顺利完成商业化。而胡晓明也不负众望,他接手数据平台事业部后迅速砍掉了多余的项目,决定先从“数加”项目开始着手,而张金银则被推举成为了“数加”项目的创始人。
5K+项目的纪念吊牌
李金波记得,那是2015年初的事情,当时5K+项目刚刚上线。部门在阿里西溪园区的食堂举行了一场庆功宴,几百个人一起在食堂吃海底捞。“那天之后,数据平台事业部就正式并入了阿里云。”
2015年4月,陈吉平和张金银先后离开了阿里西溪园区。陈吉平离开是因为离职,而张金银则是要带领团队出去内部创业了。
当时,数据平台事业部的分歧已经平息,团队正在朝着好的方向发展。但陈吉平觉得在阿里工作了十几年,是时候出去放松放松,过过那种面朝大海、春暖花开的生活了。
4月1日,陈吉平离职的那一天,“数加”项目正好启动。胡晓明对张金银说,你要带领团队去外面创业了,张金银有些茫然,他并不知道自己马上就要搬到云栖小镇了。
张金银(中)和数加团队
4月23日,“数加”团队正式搬离西溪园区,临走前部门给他们搞了一个小型欢送会。
和张金银一同搬到云栖小镇的还有甘云锋和李金波。其中甘云锋带领另一支团队成立了“数据工作室”,任务是基于“数加”平台做面向行业的应用和开发。李金波则在阿里云担任大数据架构师,帮助客户进行大数据方案设计。期间他参与搭建了国家税务总局的大数据平台解决方案,为后者的政策制定提供数据支撑能力。其后,他还参与了国家海关总署的大数据中心项目,帮助海关总署判断应该对哪些货物进行抽检。
2015年的云栖小镇还很荒凉,张金银刚到那里的时候心里仿佛被泼了一盆冷水。他清楚记得,去的第一天管委会给了他一串钥匙,这令他有些错愕。“我在阿里工作了这么多年,还从来没自己管过钥匙和打扫卫生”。
当时,“数加”和“数据工作室”两支团队的创业条件都非常艰苦。团队里大多数人住在城西,到云栖小镇需要每天长途往返,而且吃的也很差。夏天的时候,太阳一暴晒,办公室甚至会弥漫着一股怪味。很多成员最后都熬不下去离开了。
但这还不是两支团队面临的最大挑战。外人看来,在阿里做技术输出是背靠大树好乘凉。不可否认,背靠阿里这棵大树确实有一定的优势,可以很容易地敲开客户的门,客户也愿意跟你一起尝试。
但困难从不会缺席:一方面,“大炮打蚊子”和内外利益冲突的窘境仍然存在;另一方面,“数加”的定位是通用数据平台,面向的是所有行业,但阿里巴巴的基因是零售,因此面向其他行业的客户时,如何把技术跟行业场景相结合成了一件很难的事情。这些问题交织在一起,最终导致了包括张金银和甘云锋在内的许多人集体出走创业。
2015年,张金银和甘云锋还在为了各种挑战焦头烂额的时候,陈吉平已经开始了他游山观水的生活。但这种生活并没有让他感到轻松,短暂的兴奋之后更多的是无尽的空虚。
10月份,他和好友宁海元(花名“江枫”)一起去了趟西藏。宁海元也是“数加”平台的创始团队成员,主要负责管理“数加”的技术团队。当时数加的第一个版本已经基本完成。
旅行中,两人作为数据工程师的天性和习惯开始暴露出来,他们没有太多的兴致去欣赏沿途风景,反而顶着头疼欲裂的高原反应,兴致勃勃地聊起了大数据和云计算,憧憬着在这样的大潮中,他们能做点什么。
袋鼠云三位创始人宁海元(左)、徐进挺(中)、陈吉平(右)的西藏之行
一番讨论下来,他们决定从自己最擅长的数据平台着手。恰好那时候,马云在云栖大会上首次提出了中台的概念。于是回到杭州后,宁海元很快就从阿里离职,和陈吉平一起创立了袋鼠云。
市场上做数据中台业务的企业很多,袋鼠云给自己的定位是数据中台PaaS产品提供商。袋鼠云的数据中台Paas产品——数栈把大数据开发的全过程都进行了可视化处理,让客户能够像在Windows系统上操作各类应用程序一样来完成大数据的所有工作。陈吉平认为,基于数栈袋鼠云在商业变现上既可做宽也可做深,一方面,它能够吸纳不同的合作伙伴,令其基于产品之上产出各行业的解决方案,另一方面,它也能够聚焦某个细分领域,做到精专。目前袋鼠云在垂直方向主要聚焦于新零售、金融、政务三大领域。
袋鼠云成立大约半年后,甘云锋和张金银也看到了数据平台领域的巨大机会,相继离开阿里创立了数澜科技和奇点云。
创立“数据工作室”时期,甘云锋发现,阿里的数据平台很好,但客户用起来却非常不顺手。他认为,问题出在阿里本质上是一家云基础设施供应商,它和客户之间缺少一层数据应用的基础设施。虽然阿里试图通过“数加”平台补足这一环,但它的基因不在这里,勉强做了效果也不好。
而且当时很多企业对大数据的认知存在一个严重误区:他们觉得阿里有很多数据,只要把它拿过来就可以产生很大的价值,而往往忽略了数据技术本身的价值。甘云锋认为,要让企业看到这一重价值,就必须跳出阿里的光环。于是2016年他从阿里离职创立了数澜科技。
关于公司的定位,数澜内部曾经有过分歧:投资人牛奎光想做“纵”,他建议数澜先聚焦某一个垂直行业;而甘云锋想做“横”,一开始就做基础设施,走平台路线。
做平台面临着一个很大的难点,难以测算给用户带来的具体价值。说不清这一点,就无法说服客户付费。
讨论再三后甘云锋还是决定坚持自己的想法。他习惯从长线的历史角度来思考问题。迄今为止全球范围内还没有任何一家公司可以端到端解决客户的任何问题,因为我们站在外围,很难看到它真正的痛点”。而且数澜的基因是技术,要以一个团队的力量,在金融、地产、制造业等多个领域获得深度行业认知,显然不现实。
他认为,最理想的状态是客户本身有不错的认知高度和技术能力,你只要给他平台、工具和方法论他就可以用的很好。如果客户没有这些,也可以引入专业的合作伙伴到数澜的平台上做深入的定制化开发。
甘云锋承认,创业公司做平台非常困难,但他认为这正是创业者的魅力所在。“无论有多么困难,只要大势是对的,便义无反顾去做”。
张金银的选择恰好和甘云锋相反。“数加”时期,张金银干了不少跑客户的活儿。在和客户沟通的过程中他发现,自己不懂场景,客户也不懂技术,大家经常会陷入自说自话的尴尬境地。因此他认为,做数据平台绝对不能离开应用和场景。
他常用苹果树来打比喻,“如果把数据中台比喻成土地,数据智能应用的场景就是苹果树。客户想要的是苹果,他最多只能理解到苹果树这一层。你单纯给他一片土地,他未必有能力种出苹果来。”
张金银种的第一棵“苹果树”是新零售,为了解决零售企业数据不足的问题,他还做了很多前端数据采集系统,比如无人售货机和客流分析系统。
李金波是四个人中最后离开阿里的。2016年下半年,李金波进入杭州城市大脑项目,负责开放数据在行业的挖掘和应用,其中包括舆情分析产品,这给他的世界打开了一扇全新的大门。
过去他在淘宝做数据分析和应用,受用户隐私等方面的限制,有时会陷入没有数据可用的窘境,这是做大数据的人最怕碰到的局面。而舆情分析领域完全不存在这个问题,互联网上有海量公开数据亟待挖掘。李金波形容这种感觉就像“一个渴了很久的人突然有水喝了”。
2017年6月,由新华社和阿里共同投资的新华智云宣布成立,致力于将大数据和人工智能技术在媒体场景下落地,打造“开放数据的第一分享平台”。这理念与李金波不谋而合,李金波欣然应邀出任新华智云CDO。
“新闻即数据,数据即新闻”。现在很多新闻事件的第一发声渠道往往是互联网而非媒体,因此新华智云希望能够汇集互联网上的多方面数据,帮助媒体更好地发现线索。
以江西媒体为例,编辑可以看到整个互联网在怎么讨论江西,评价是正向还是负向,传播趋势如何;通过对互联网上最新热点的传播路径进行分析,记者可以找到该热点的第一信源,进一步采访求证;通过对气象数据进行分析,可以告诉媒体这是该地区登陆的第几个台风,风力排行榜中排名如何。这些都是公开数据对媒体的价值。
此外,这些公开的互联网数据也可以为企业提供巨大赋能。比如企业的行业口碑、舆论方向,可以作为金融行业投资决策的一部分。再比如自然灾害可能影响原材料生产地的产量情况,继而造成大宗商品的价格波动,通过两者内在的关系,可以为金融从业者提供预警。李金波希望以媒体为起点,将公开数据的价值在横向场景挖掘延伸,而这也是新华智云未来可以发力的方向。
至此,四位曾经在阿里数据平台事业并肩作战,一步步推动阿里实现“由数据仓库到数据平台,再到数据中台”升级转型的战友全部离开了阿里。但他们的故事并没有结束,未来他们还将在这片最熟悉的战场上继续奋斗,谱写新的故事篇章。
2019年12月6日,湖畔大学里举办了一场名叫《中台客栈——“数”下英雄会》的小型沙龙,由陈吉平、张金银、甘云锋和李金波四个人论道中台的现状和未来(查看沙龙精彩内容)。这是离开阿里以来,四个人第一次聚到一起。虽然平时忙碌于各自的事业,但偶尔闲下来的时候他们还是会互相探听对方的消息。
活动结束后,大家在附近的一家小馆子聚餐,在座的还有很多老阿里人。餐桌氤氲的雾气里,大家推杯换盏谈笑风生。席间陈吉平不无感慨地说道,他希望大家都好,不仅因为大家都是从阿里巴巴数据平台事业部出来的,更因为他希望这个行业能好。
在他看来,虽然四家企业都做中台,但这条赛道足够大,还远没有到竞争的时候,眼下最重要的是一起把盘子做大。因此,大家过去大家是战友,现在依然是,只不过是到了一个更大的战场。雷锋网雷锋网