前几日,腾讯云委托Forrester Consulting推出一台 “计算器”,能直接算出使用腾讯云TKE后投资回报率(ROI)。这个计算器成功吸引了刘飞的注意,他试了试,并输入一系列关键信息:当前的计算资源成本、预期的容器化比例、运维和研发人员的数量、以及年营收......
随着鼠标轻点,计算器迅速处理着这些数据,最后屏幕上跳出了ROI预估值:三年期投资回报率预估298%。
这个投资回报率让刘飞很欣喜,前几日,刘飞汇报云原生改造方案时,刚好被老板灵魂拷问了一番:“上云要花的钱是真真实实要从我账上划走的,但我得到了什么?”
眼下,这个计算思路给了他一些下次回答老板上云成本问题的启发。
不仅是刘飞,可能大多技术决策者都有类似感受。过去,老板对IT投入可能还没那么敏感,但这两年,由于外部经济环境承压,企业经营压力剧增,IT又容易被视作成本中心而非利润中心,很多老板自然对IT开销关注度大大提升,一些IT负责人也被下达必须进一步降本增效的指令。
到底如何降本增效?IT负责人要思考的问题不少,首要是成本,要找出成本支出大项,做进一步优化。
“计算资源成本支出往往是被最先盯上的。”刘飞说道。
由于种种原因,一些企业还是采用的“买箱子”方式,投入大笔资金购置硬件设备以及建设数据中心,一个数据中心少则几百万,多则上亿元,极大影响到了公司现金流。
资源成本之上,被重点关注还有开发成本。传统开发大都是“手工作业”,手动拧紧数据库、服务器和应用依赖的每一颗螺丝。功能开发完毕,便迎来手动测试的长队,然后是小心翼翼的部署过程。这种方式不仅效率低下,而让公司开发部门臃肿,人力成本也高居不下。
此外,运维成本也是不可忽视的一项大开支,尤其是随着企业业务的不断增多,IT系统不断升级不同年代型号设备品牌不一,协调不同厂商发现并解决故障,运维复杂度、成本也在攀升。
如何对这些成本项进行节省改造,成为了技术决策者每年重要的KPI。与此同时,除控成本外,技术决策者也还需兼顾思考业务。“所有的IT改造要能灵活地响应市场变化,支持业务的发展。”刘飞说道。
过去几年随着市场教育增多、企业认知的提升,很多企业技术决策者最终把目光落脚了云原生改造,尝试选用云技术架构来降本增效。
云最大的特点就是弹性,大家都希望能通过云弹性能降低企业资源成本,刘飞表示。此前也有从业者直言,中国很多的公司固定需要用的机器,使用时长不会超过1/3,剩下的2/3其实都是可以用弹性来解决的。
这是决策者选择云原生的一大原因,不过资源成本外,决策者也希冀通过容器、微服务等云原生技术快速构建、交付应用的特点,进一步降低IT开发、运维成本。
Forrester 撰写的《腾讯云容器服务总体经济影响™报告》中,模拟出一家业务范围覆盖全国、年营收4.5亿人民币左右的复合式组织,并直接测算了该组织使用腾讯云TKE后的成果。
报告显示,该组织计算资源成本节省超过70%,日常运维负担降低50%以上,峰值运维负担降低98%。企业应用开发迭代效率提升90%。服务稳定性提升,每年服务中断时间减少42.6小时。
此外,在刘飞看来,云原生技术的敏捷性和快速迭代特性,的确能让企业在面对市场变化时,能够迅速调整策略。腾讯会议这个案例就曾令他印象深刻。
当时刚推出时,它只是常规办公场景中的应用广泛,在疫情期间,远程办公需求激增,导致业务量急剧上升。腾讯会议利用云原生技术实现了难以想象的快速扩容。在一天之内,其支撑能力就从几百万用户迅速扩展到了超过一千万用户,扩容过程变得迅速高效。而在疫情结束,峰值过去之后,业务也可以快速地缩容。
在降本增效的加持下,这两年企业进行云原生改造的动力增加了不少。
云原生技术改造方案中,其中重要一项技术改造就是——容器,它也被称作是云原生的技术底座。
如果用一个比喻,容器就好比一个智能交通调度系统,在一个繁忙的交通枢纽,如果没有智能交通系统时,就需要大量人力指挥车辆,效率低下且成本高。有智能交通控制系统后,它能自动监控交通流量,实时调整信号灯,优化车辆路线,甚至预测并应对高峰时段。这不仅减少了交通指挥员的数量,还提高了道路的使用效率,减少了拥堵和空驶,最终使得整个交通系统的运行成本大幅降低。
这几年已经有企业陆续开展容器化的改造。不过改造的路径有所不同,有的选择自己干,有的选择直接采用成熟的云厂商容器产品。
“我们两种方法都试过。”贝壳云技术中心系统研发部高级经理杨菁伟对雷峰网坦言。早在2020年,他们曾试图在云上自建并管理Kubernetes集群。
一路摸索下来,杨菁伟表示,如果企业选择自行搭建K8s面临两个问题:一个是成本不低,尤其是一家不是特别大型的企业,如果要在基础设施上自研,是要砸不少重金,养颇为庞大的研发团队。但实际上,其实企业还是应该优先把落脚点放在业务端。第二是自研过程也是一个探索过程,中途不可避免走一些弯路,起初搭建的产品不一定很成熟,会有很多的试错成本。
在经过一番自我摸索之后,2022年贝壳找房选择和腾讯云TKE合作。
主要原因还是看中了腾讯TKE积累的技术实践。自2018年腾讯启动整体战略升级以来,明确了“开源协同”和“自研上云”两大技术战略。其中,在自研上云领域明确提出基于容器,微服务和CICD等云原生技术来构建面向未来的技术架构。
在过去几年,腾讯云TKE的落地规模已经超过5000万核,累计为腾讯节省数十亿元成本。除了支撑集团内部业务全面上云,腾讯TKE还服务小红书、快手、招行、银联、富途、作业帮、荣耀等数十万家客户,覆盖电商、游戏、金融、教育、政务等多个领域。
此次与腾讯TKE合作中,贝壳找房也量化出了两个重要的资源利用率标准:维持在40%以上以保证成本下降,同时不超过60%以防节点稳定性受影响。
“当时我的心里是心存疑虑,心里打鼓的,腾讯云能否充分理解和适应贝壳找房的具体业务场景,并作出相应的调度器优化。”杨菁伟对雷峰网(公众号:雷峰网)说道。
在与 TKE 团队深入交流后了解到,TKE 原生节点本身就可以通过调度时和运行时水位线来控制节点的真实利用率,让集群中的节点利用率保持在较高水位上,并保障节点稳定。
不过实际落地过程中,杨菁伟称,也出现过一些与预期不符的现象,“好在 TKE 团队和我们保持密切沟通,深入了解贝壳的业务情况和使用场景后,做了个性化的参数调整及优化,最终这一目标得以顺利实现。”
对于具体的效果,杨菁伟举例说,假如贝壳找房2023年初设定的全年点击流量预期为300亿次,然而年末的实际流量增长了10%,但服务器投入却仅只增加了4万核,相较于预期减少1万核服务器的算力供应,即使在流量增长的情况下仍实现了成本的有效控制。
尽管以容器为代表的云原生技术有望显著降低企业IT成本,不过,当下大型企业内部容器化的普及程度仍有待提高,据腾讯云以及一些分析机构提供的数据,目前大型企业容器技术渗透率仅为45%-50%,这一数字并不算高。
尤其是受近期推特下云事件影响,更是有一拨人站出来称上云不一定节省成本。但实际上企业用云成本高昂的原因有多种——在认知层面,某些企业可能对云服务的真正价值和潜在成本缺乏充分认知,直接超买。
Gartner此前的一项研究数据,引起了不少厂商的关注:45%的企业由于缺乏优化措施,在直接迁移上云的过程中会超买 55%的资源,并且在上云初期的18个月内多花费70%。
这符合人们的一贯思路,就好比提前囤积物资,以备不时之需。可事实上,把这种旧想法原封不动地带进“云时代”,正是造成云成本超支的“元凶”之一。
除“囤货思维”导致的超买外,没有搭配好合适自己的计费方案又是另一大云成本增加的“杀手”。
众所周知,云服务的计费模式复杂多样,最常见的两种是按量计费和包年包月,按量计费比包年包月单价贵很多,企业基本是搭配购买云资源。但出现一个问题是,如果包年包月量太大,可能花不完,造成了资源浪费。但如果包的太少,一些公司因为业务波峰波谷差异大,又不得不扩大按量计费,这又导致云支出成本可能比较高。
这两年,云成本优化也成为了行业研究的重点。2020年12月,信通院就牵头成立了FinOps产业推进方阵,推进规模化实践
与此同时,各个云厂商也在加速跟进,其中腾讯云也在不遗余力研究和实践怎么帮企业省钱。
2021年11月底,腾讯云宣布加入FinOps基金会,成为国内首家FinOps基金会的顶级成员,并且基于FinOps推出的国内首个云原生成本优化开源项目 Crane,将自身内部云资源优化流程方法和工具做系统性输出。
“Crane致力于推荐资源和智能弹性配置,业务人员无需再为业务需要多少资源,自动扩缩容应该如何配置等问题而烦恼,Crane会基于业务的时序变动数据给出最优解。”腾讯云FinOps产品负责人孟凡杰在此前采访表示。
据了解,Crane已经在腾讯内部自研业务实现了大规模落地,部署数百个Kubernetes集群、管控CPU核数达百万,在降本增效方面取得了阶段性成果。
以腾讯某部门集群优化为例,通过使用Crane,该部门在保障业务稳定的情况下,资源利用率提升了3倍,腾讯另一自研业务落地Crane后,在一个月内实现了总CPU规模40万核的节省量,相当于成本节约超1000万元/月。
在经济蓬勃发展时期,企业的IT预算曾如同拧松的水龙头,资金流动自由而充沛。
然而,在当前紧缩的环境下,这个水龙头已经明显被拧紧。企业决策者迫切希望看到每笔支出背后的确切回报,他们寻求的不仅是对技术的信心,更是对成本结构的清晰计算和深入理解。
在这样的背景下,技术决策者们必须拿出账本,对成本结构进行细致的梳理,以此作为说服管理层的关键。腾讯云与Forrester联合推出的“云成本计算器”正是在这样的需求下应运而生,这一实践,为企业提供了一种新的视角和方法,帮助他们在云的浪潮中稳健航行,确保每一分钱都花在刀刃上。
注:刘飞为化名