腾讯的大数据方法论：修炼十五年，一身烟火气

腾讯云大数据 TEG CSIG

作者：周蕾

2023/03/27 11:35

在与腾讯云大数据团队见面前五分钟，我们来到团队所在的办公室，这里有一扇朝南的落地窗，正好将腾讯大厦的全貌和周边的车水马龙尽收眼底。

这副画面，某种程度上暗合了我们对腾讯云大数据的定位：一个巧妙的观察窗。

从这个窗口望出去，我们可以觉察到，腾讯云大数据的“三级跳”式发展：

第一级，是腾讯十余年海量业务的锤炼下，腾讯云大数据不断自我进化，成为保障集团在大江大河中稳步前行的“大心脏”。

第二级，是腾讯开源协同战略过程中，通过Oteam等组织和流程的设计，大数据完成技术层的穿透对齐。散落在集团内部的各种大数据相关的工作，自此归整合一，成功转化为对外赋能的底气和实力。

第三级，是腾讯云大数据在前两级的基础上，逐渐打磨出了自己的完善产品矩阵和成熟标杆案例，一定程度上将腾讯助力数实融合的能力具象化，更清晰呈现于世人面前。

腾讯云大数据这个观察窗，可以观照腾讯内部技术和组织层面的革新，更能清晰看到腾讯如何由内向外地延伸自己的能力边界，帮助企业在数据的无边之海中，建起一座通往创新彼岸的桥。

它也由此成为了一个样本，在讨论企业数字化和赋能产业互联网的当下，颇具参考意义。

一颗已经跳动十五年的“大心脏”

事实上，腾讯大数据的十五年演进道路，没有刻意的提前规划、顶层设计。始终遵循的原则，就是贴着业务而行。

大数据雏形渐显的时间点，可以追溯到2006-2007年间的腾讯。

“当时已经有数据分析报表给到Pony（马化腾）、Martin（刘炽平）这一层，每天都会发封邮件告诉他们业务关键指标如何。”腾讯云副总裁刘煜宏回忆道。

第一阶段：离线计算时代

刘煜宏2005年加盟腾讯，是现在的腾讯大数据平台负责人，亲历了腾讯的大数据成长全过程。他回忆称，腾讯的大数据在2008年左右，突然遭遇了业务膨胀的巨大挑战，QQ、游戏、财付通等业务多头并进。

特别是QQ农场异军突起，业务爆发式增长，把传统的数仓体系压垮，“经常要做交叉分析，业务量一大，系统就出现瓶颈了。”

自建大数据平台，并且把业务从Oracle平滑迁移到新平台上，成为当时大数据团队的头号任务。

尽管当时还是PC互联网，各种数据指标和维度不如现在精细，但要知道，那时候腾讯已经有好些上十亿、上百亿量级的业务了，例如大家所熟知的QZone（QQ空间），迁移难度可想而知。

刘煜宏还记得，QQ蓝钻是第一个迁移到新平台上的重量级业务，大数据团队心理压力不小，派了不少人陪着蓝钻业务的数据分析师，两拨人排排坐，一起目睹业务脚本一个个迁到“新家”——所幸一切顺利，任务顺利完成。

可以说，2009-2011年是腾讯大数据的起步期。在这一阶段，腾讯开始转向构建以Hadoop为核心的离线计算体系，第一代大数据平台由此诞生，完成了从关系型数据库到自建大数据平台的全面迁移。

第二阶段：实时计算时代

但团队很快发现，刚降生不久的第一代平台，又赶不上腾讯高歌猛进的业务增速了。

管理层已经不再满足于之前按天汇报经营数据的模式：“比如一个游戏上线新版本，才发布一个小时，老板们就会问到最新的运营数据。”

但那时候的腾讯，数据统计基本都是T+1的，得等到晚上12点自动生成文件，再从业务组、业务部门、事业群一层层向上汇总，再规整到TEG的数据平台部。这种按天的集中式数据传输，占用了不少带宽资源，成本和时效性都成问题。

与此同时，移动互联网逐渐接棒PC互联网，腾讯面临的内部需求和外部趋势，都说明了这一阶段的大数据任务关键词已经变成了“实时”。

因此，在2011-2012年左右，腾讯的大数据从离线计算逐渐切换至实时计算阶段，从Hadoop转向以Spark、Storm为核心进行流式计算，从之前的天、小时、分钟迈进到秒级、毫秒级的时代，开始支持在线分析和实时计算场景。

第三阶段：智能化时代

腾讯的发展之快，很快让业务部门在统计、监控和简单的模型计算之外，又有了新的想法：看数据不仅要“快速”，还得“非常聪明”。

“各个业务对数据的挖掘越来越深入，比如内部的广告、推荐业务，做用户画像、特征分析的需求，已经得不到满足了。”

因此这一阶段的腾讯大数据，主要完成了从数据分析到数据挖掘的转变，也就是「智能化」。

分布式机器学习引擎 Angel 和一站式 AI 开发平台智能钛 TI，都是在这一阶段被自主研发出来，专攻复杂计算场景，可进行大规模的数据训练，支撑内容推荐、广告推荐等 AI 应用场景。

刘煜宏透露，事实上他们并没有刻意设计过每一代的目标和路径，但他们回顾总结后注意到，离线计算、实时计算、机器学习+深度学习，可以看做是腾讯云大数据的三个阶段性特征，而第四代大数据平台，已经在向一体化、智能、安全、云原生的方向演进。

这时，命运的时针正好来到2018年。

从大数据出发：腾讯的内部融合之道

2018这一年，在不同层面上来说，都是腾讯的分水岭。

这一年，第四代大数据平台逐渐成形，新的发展方向已经呈现在大数据团队眼前。

也是在这一年，930变革横空出世，开源协同和自研上云两大战略，吹响推进的号角。一场集腾讯全公司之力的世纪工程就此开始。

开源协同很多时候被描述为代码协同，但其实远不至于此。据腾讯云CTO王慧星回忆，TEG（技术工程事业群）总裁卢山建议，大数据、存储、计算等方面的PaaS服务也应当以统一的公有云形式建设，而非业务团队自行建设和管理。卢山认为，这样的技术能力应该以产品化形式在云上对所有事业群提供服务。

PaaS协同工作里，大数据是非常重要的一个赛道。刘煜宏告诉我们，在推进大数据协同过程中，有十几个相关Oteam（腾讯内部公司级跨团队协同小组）在齐头并进。

这十几个Oteam做的事情，跟腾讯云大数据后来的日子有何关系？

我们都知道，互联网巨头的To B路径通常是这样的：早年间自身业务锤炼，沉淀众多经验，随后对外赋能。

腾讯云大数据确实也是如此，但其特别之处就在于这一步协同工作，对“沉淀”这个步骤意义非凡：散落在腾讯内部的各种大数据相关工作，顺利通过PaaS协同工程而归整起来。

这意味着，大数据团队可以最大程度地“利用”好腾讯自身的条件，穿透式体会到自家业务场景之复杂，需求之艰难，因此积攒下来的解决方案和服务经验，是相当丰富的。

一般企业构建大数据体系时，会遭遇众多问题，例如组件繁多、选型困难，或者自建大数据后运维成本巨大，又或者是有安全方面的考虑——但这些问题，很多已经在Oteam里被集中讨论和解决过了。

换言之，腾讯云大数据对外提供的不少能力，是真正在腾讯内部，被各式各样业务反复“敲打”过的。

究竟Oteam是怎么帮忙，将散落集团各个角落的大数据工作给规整起来的？

例如在集团内部，不同事业群的各个部门都有使用Spark的需求，他们就会各自派出一名代表，组建Oteam。Oteam内部运作类似开源社区，公司内部所有开发同学都可自愿加入，各部门会提出自己需要的特性，汇总在一起，再循序渐进地整合开发。

参与者可主动担任Oteam的leader，但这里的leader不光是字面意义上的领导，更是这一项目的牵头者和兜底者，要负责把集团内部有关Spark的需求全都实现，也要做到竞赛中业内数一数二的水平。

腾讯云大数据基础中心副总经理张昆也告诉我们，公有云上不少成熟的大数据产品，就是开源协同的直接受益者，例如数据治理开发平台WeData，数据集成服务InLong等等。

从大数据身上，我们可以看到腾讯To B产品的一种输出范式：内部较成熟的代码通过Oteam沉淀，或者服务也通过协同工作沉淀下来，做到产品化，内部业务先上线使用，锤炼好产品再给到外部客户。

互联网大厂在服务B端客户时，通常会被问到自家的核心业务是否已经采用相关产品，倘若不能给出肯定的答案，产品的说服力立马就会大打折扣。而新产品让内部业务先试用，这一步在腾讯内部，被称为“吃自己狗粮”。

在“吃狗粮”的过程中，往往会遇到各种各样的bug，有一些甚至对业务的收入和用户体验有影响，但是业务同事在这个过程中，对底层平台给出的不仅有高要求、高标准，也有高度的善意和信任。

刘煜宏回忆道，此前一次项目中，腾讯内部支付要选用腾讯云大数据的数据仓库，但他和团队都心里打鼓：支付这类业务属于金融级，要求之高不言而喻。“坦白讲，当时做了一段时间，压力实在很大，我们都不太敢保证能一定做好。”

但支付的兄弟们却反过来宽慰他们：“没关系，可以用，我们在业务层给你们打配合。”

甚至还有一次，在腾讯云大数据还没有开发出成形产品的时候，支付部门主动拉着刘煜宏不撒手：“Ehome（刘的英文名），你们一定要支持我们这个需求，要多少人手一起开发、需要业务怎么配合，尽管说，我们一起来做到五个九的标准。”

类似这样的，来自业务部门身体力行的支持，不止一次地出现在大数据团队的周围。他感慨，这与腾讯历来的开放、创新文化有关，“做互联网业务出身的，都是久经考验，从一次次不稳定的年代走过来，身经百战之后，也自然对新事物有着更高的包容和更踊跃的尝试。”

在腾讯内部，由此逐渐形成有关大数据的成熟案例和最佳实践。

那么，对于腾讯云大数据而言，究竟什么时候这些经验才适合正式开放，才算是迎来商业化输出的黎明？

数实融合路上的“双向奔赴”

一款产品什么时候会推出市场，喊出那声“Ready——Go”？

腾讯云大数据告诉我们，这些产品正式面世的唯一标准，始终是：在腾讯内部已经投入使用，受过腾讯自身海量业务验证，有过成熟案例或最佳实践。

张昆补充道，有时他们在竞品分析，或者外部签单调研的过程中，会察觉到市场有相关诉求，又或者会收到客户的主动联系和问询，这也会推动他们考虑产品商业化的进度。

值得一提的是，眼下千行百业的数字化转型需求，和对大数据的理解，早已不是从前那样一片荒芜一字不识、还需要从零开始市场教育的阶段了。

不少客户已经有了一定的判断和选型能力，主动选择与优秀的大数据厂商合作。腾讯云大数据也因此与不少行业头部企业形成了一场场“双向奔赴”。

百果园，便是其中的一个典型例子。

“那时候我们也比较主动，直接就选择了腾讯云开展合作。”百果园集团副总裁、负责科技版块的徐永剑回忆道。

而腾讯云大数据在当时，也同步注意到了百果园在数字化转型中，对大数据的场景需求，两家同样诞生于深圳这座城市的企业，一拍即合。

2016年正式推出电商平台的百果园，其实不只是一家连锁生鲜零售企业，在五千多家门店背后，百果园走的是一条“全产业链经营”的道路，即从种植前端一直覆盖到零售终端。

雷峰网从徐永剑处了解到，百果园为此陆陆续续上线了一百多个系统，完成了初步的信息化覆盖之后，从2018年开始做数字化升级，着重于数据资产的实际应用和价值挖掘。

也是在这一阶段，百果园进入到自己的数据中台综合化改造，腾讯云大数据也在此时正式切入，在经历两三个月的前期调研需求、讨论方案以及任务拆解之后，启动建设百果园的全域数据中心。

一颗果子，从发芽开花，到成熟摘下，一路颠簸登上门店的货架，再踏进万户千家，这当中要历经多少颠沛流离，这个数据中心的“全域”二字就有多少广阔和复杂。

腾讯云架构师杨志伟分析称，将这个全域数据中心的需求进一步拆解、落到实处，可以理解为多业务、多形态、多场景的数据整合，并同时服务差异化较大的各条业务线。

基于此，他们为百果园搭建了一套包含弹性计算MapReduce（EMR）、云数据仓库CDW、数据治理平台WeData和可视化BI（商业智能）在内的体系化解决方案，覆盖了从数据采集、存储、计算、分析、可视化等数据处理全链路解决方案，在经营决策、门店管理、店铺选址和供应链管理4个重点环节，帮助百果园实现了全链路数据化运营与决策。

百果园集团旗下数联科技的技术专家付春告诉我们，“零售企业的特点之一就是规模大，意味着人流量大、交易频繁，这个时候的数据处理能力，要能应对海量和强时效两大要求。EMR和流计算服务Oceanus，可以说是相当锋利的工具，与我们的业务经验相结合后，能减轻我们在数据成本方面的负担。”

这两把“锋利的工具”是怎么解决百果园的问题的？这里做个简单解释：

我们可以把数据看成水果，如果按“批处理”的逻辑做数据的加工分析，就相当于水果装货车被运走，每天一次，今天没赶上就等明天的车。但水果求的就是一个新鲜，数据也一样，EMR和Oceanus的办法，就相当于安排许多载着箱子的骑手，让水果刚摘下来就可以被运走。

EMR还提供了丰富的计算组件，和分钟级集群构建与平行扩展能力，提高业务响应效率，也同时搭建了批、流处理系统，实现批流一体，降低资源投入，这就好比是将骑手们灵活调度，既能迅速接单执行，又能保证没有太多闲置人手。

除此以外，腾讯云大数据基于自身的技术积累，开放了一批高并发、高流量的中间件，帮助百果园在一些全民消费、零售大促的特殊节点，保护系统运行质量、建立个性化营销诉求。

数联科技的研发部总监李俐学透露，目前双方的合作中，EMR和CDW已经全面介入；整个数据底座的第一层已经更换完成，上游的数据资产管理体系和数字化展现体系也逐步切换应用当中。未来，希望借助腾讯云大数据的数据算法能力，向精准营销和经营继续迈进。

雷峰网(公众号：雷峰网)了解到，在许多企业内部，其数据处理能力仍然很难支持实时查询，一些App会标注称“该统计数据截至某日某时”，这背后就是数据处理能力的缺失。而百果园在采用CDW之后，就能将亿级数据做到实时累计查询、与历史数据同步对比。

在零售电商领域与百果园的合作，只是腾讯云大数据对外输出的冰山一角，其技术触角已经伸向金融、政务、文娱、游戏、教育等多个领域，腾讯内部关于大数据的最佳实践，正源源不断地输送至各行各业。

这个过程也说明了另一个事实：中国的实体经济正在自发地、主动地走向数字化，其转型升级的需求是由内而外地成长出来的，所谓的互联网行业的边界，已经日渐模糊了。

“互联网+”“+互联网”的说辞，已经不再新鲜。互联网如今更倾向于一种渠道，一种实现手段，应该贴着业务而生、朝着企业的核心产品竞争力而行，而不是借着前沿技术的虚名，沦为企业周身一圈虚无的光环。

而腾讯云大数据正是将这套贴着业务而进化的打法，从集团内部延伸到了外部的广阔天地。可以说，大数据与千行百业的联结，某种程度上也让腾讯助力数实融合的路途，有了更具象化的路径。

未来去向：继续相融，再攀高峰

不过，腾讯云大数据的演进之路，还远没有到可以放慢脚步的时候。

腾讯云副总裁黄世飞透露，未来他们会进一步打磨基础产品的性能、稳定性、可靠性、易用性和使用体验等方面，做好共性部分，结合腾讯云的行业know-how，以及合作伙伴生态，共同适配更多行业。

在前不久的腾讯全球生态大会上，腾讯云大数据也推出了智能推荐平台、商业智能两大产品体系，进一步帮助企业释放数据价值，实现业务的增长转型、精细化运营与快速商业决策。

2023年刚刚开始，他们对新一年的工作也已经有了颇为明确的规划，例如全托管方案中的产品联动，一站式产品体验的优化，半托管产品的云原生容器化和共同部署等能力的深化。

同时，云端全托管服务Elasticsesarch Service（ES）的存算分离版本，数据治理开发平台WeData联动其他引擎的一站式解决方案，以及成熟形态的隐私计算方案，都已提上日程。

他们告诉雷峰网，一体化、智能、安全、云原生，是腾讯眼中的下一代大数据核心关键词。

智能和安全，不难理解。前者注意着眼于提升大数据平台的智能化运营支撑水平，后者则是通过隐私计算，保证大数据开源项目之间形成安全的联动，让数据收集、计算过程存储和合作都符合更高的合规要求。

大数据与云原生的拥抱，则体现在了纯容器化和存算分离两个特性上，让大数据更易于部署，通过云计算快速可弹性的计算资源来处理数据；同时，底层存储资源打通，上层计算引擎可以针对客户内部不同业务做针对性计算。

传统的冯诺依曼架构下，计算和存储是紧密耦合的。早期腾讯自身采用的，也是存算一体的架构，这种架构可以实现就近计算，优化数据的亲和性，简单来说计算不必“舍近求远”，性能自然有所提高。

但随着技术发展，存储与计算各自的增长并不会按比例同步增加，这时必然造成资源的浪费，因此存算分离正式面世，计算资源可以弹性伸缩，这种架构的使用也被认为是云原生的特性之一。

眼下，腾讯的大数据最佳实践采用了混合架构，既兼容以往的存算一体、高性能优先的架构，也兼顾存算分离、方便资源扩展的架构。当中会有统一的元数据管控与调度，也会在计算引擎和语法上使用自适应的部署方式，形成整体大数据平台的云原生化。

这是一个有着顶层设计的云原生大数据平台，有自适配的SQL语法，有智能选择计算引擎的自适应计算架构，有统一的数据编排与存储加速并能适配不同的存储引擎。

同时底层的云原生大数据底座统一调度及适配各种底层算力资源，另外还有统一的调度系统和元数据管理系统，以及统一的开放接口，最后还有像自动驾驶系统一样的智能运维系统。

从另一个维度来看，腾讯也同时在进行人工智能（A）、大数据（B）、云计算（C）三者的一体化。

事实上A、B、C三个概念都已提出多时，并各自有着长期发展，如今行业的关注点已经来到了三者的融合应用。外界在关注科技巨头们的最佳技术实践时，也会将目光放在巨头们对A、B、C三者合流的解读和实现上。

腾讯云大数据的发展，在技术实力和组织保障之下，不断攀上更高的山峰。