如今,伴随着数字化转型脚步的加快,大数据已成为企业经营管理的主要手段之一,越来越多的行业也选择通过大数据来实现业绩增长。
政府机构通过大数据手段为市民提供优质服务,改善民生;医疗公司利用大数据和认知计算,从病人的病史和各部门医生的处方中获取有价值的见解;银行通过大数据咨询服务收集数据并进行分析,从而提高客户对网上银行的参与度...
大数据普惠千行百业的案例比比皆是。大数据相关人士曾这样表述道:大数据时代已经来临,这是一场时代的变革,只有把握好机遇,建设大数据平台并运用到企业中,才能不被时代所抛弃,并随着时代的更迭演变出更适合发展的模式。
这段话说明了大数据时代到来的必然性,也说明了大数据时代下,大数据平台建设的重要性。
大数据平台是指以处理海量数据存储、计算及不间断流数据实时计算等场景为主的一套基础设施。典型的包括Hadoop系列、Spark、Flume、Flink以及Kafka等大数据生态组件。
面对海量数据爆发式增长,越来越多的企业有了强烈的上云需求,在此背景下,大数据平台又有了新的定义——云原生大数据平台。
智领云CEO彭锋表示,云原生大数据平台的出现其实是在传统大数据平台的基础上进行的,主要在于传统大数据平台的搭建,开发及运维都相对复杂。
一般来说,原始数据的诞生到价值产生过程中往往包括数据发现、集成、开发、分析等多个环节,在这个过程中要想让数据创造更高的价值就需要数据应用的开发部署,服务共享,持续发布,调度运维以及质量监控等一整套体系来管理。
而传统大数据平台主要集中在采集、数据组件安装以及数据仓库的建设方面。并且其开发管理运营环节散布在各个大数据组件中,并没有一个完整的管理体系。此外,更重要的是传统大数据平台中的每个组件都有自己的安装流程和管理流程,这就增加了平台的建设难度和复杂度。
对此,彭锋还举例道,如果大家在今日头条或者抖音中点赞一个足球视频,它会给你推送相关的足球新闻或者周边产品。从点击这个视频开始的数据采集到最后根据用户画像推荐给你的内容,中间要经过多个大数据组件,诸如日志、数据库、数据采集、数据仓建设、机器学习、模型服务、流式数据处理等数据应用都是不可或缺的部分。
像下面这个简化版的数据流水线图展示的一样, 依靠传统大数据平台实现这个任务要去开发至少八条数据线,涉及到包括Kafka、Hive、Spark,Redis、Hadoop、Flume等内在的多个大数据组件。
这八条数据线背后代表整个数据产品的八个不同的数据处理步骤,传统上这些数据处理步骤都发布和运行在不同的集群组件中, 其代码也以不同形式存放于不同子系统中。一个小的应用场景其背后数据平台的搭建往往比想象中的复杂。
显然传统大数据平台已不能完全适应大数据时代下企业的运营需求,因此云原生大数据平台的概念开始被业界推崇。
其实云原生并不是一个新的概念,云原生是面向云而设计的应用,采用基于云原生的技术和管理方法,可以更好地把业务生于“云”或迁移到云平台,从而享受“云”的高效和持续的服务能力,也就是让企业的业务生于云,长于云。
相对云原生而言,云原生大数据平台在国内似乎是一个新的概念,并且其热度并不算高,但在彭锋看来,去年两大标志性事件的发生,预示着大数据平台的云原生化将成为大势所趋,一是去年3月份Apaceh的Spark支持了Kubernetes;二是去年5月份,Kafka也公开支持了Kubernetes。
同时他指出,云原生大数据平台会呈现出三大趋势:
基于Hadoop的大数据生态会逐渐迁移到K8s上,MapReduce和Yarn被K8s计算和调度框架取代,K8s可直接运行所有大数据workload,便于多租户管理,资源混排,提升资源使用率;
各种大数据组件都可以在K8s上直接运行,使集成开发管理成为可能;
数据即产品成为可能,以往我们所看到的数据能力会以一种集成的方式体现,这在传统大数据平台时代是无法实现的。
显而易见,云原生大数据平台的优势在于可以解决传统大数据平台无法解决的问题,诸如平台建设方式效率低、开发发布流程复杂无法形成客户的自助数据能力、系统性能低下导致的数据孤岛与应用孤岛等问题。
在两大事件的推动下,国内各大巨头企业包括华为云、阿里云、腾讯云等也进行着K8s云原生大数据平台的具体实践,其中值得关注的是,智领云就将在Mesos上所做的云原生大数据平台全部迁移到了K8s,并发布了第一个纯K8s在线数据开发平台——BDOS Online。
彭锋表示,对大数据平台进行云原生改造并非一件易事。
首先体系之间存在冲突,原来大数据体系有自己的分布式管理和内部工作通讯机制,现有大数据组件对于K8s原生技术栈的使用有一定的冲突,比如Hadoop、Spark等大数据框架只能支持某一个版本的K8s;另外一个冲突体现在K8s需要的是存算分离,但是大数据讲究的是把数据存在什么地方,计算存在什么地方。
其次,组件的安装运维及使用。原有大数据组件的安装运维流程都是通过手动管理方式完成的,而K8s组件的运维、安装均使用自动方式运行,想要把所有大数据组件的安装运维方式全部改成K8s理念仍有很大挑战。
再者,现有业务的无缝迁移。现有大数据运行着很多以前的业务,包括ETL数据分析、数据仓建设等,不能为了使用K8s就把以前的业务应用全部重写,如何“不用重起炉灶”将其无缝迁移到K8s体系上是另外一大技术难点。
无论是传统大数据平台还是新兴的云原生大数据平台其最终的服务对象是客户,一款产品的好坏往往取决于市场的接受度。
彭锋表示,早期我们面临的问题很多时候是向客户解释什么叫容器?什么叫云计算?云计算的好处是什么?容器发布的好处是什么等问题。大家对容器发布的复杂度,性能损耗和管理都有一定的顾虑。
而现在大家对云的接受程度越来越高了,大部分客户都在寻找上云的方案。不管是私有云还是公有云,越来越多的客户愿意把业务系统放在云上。如果一个解决方案不是在云上,而是使用传统集群管理方式发布,客户会有“为什么不是在云端发布,有什么原因吗?”等类似的疑问。
目前大多数客户采取的并非“一次上云”的方式,上云的过程可以跟现有业务架构,数据架构并行,一些新的组件、新的功能也可发布到云上,然后系统再逐渐迁移。这种上云的好处在于可以让客户切身体验到弹性、高可用、容错、高效率。
彭锋坦言,大家已经基本认可了云原生的体系架构,但人才方面比较欠缺。
其实除了市场认可外,能否为企业和千行百业创造价值也是衡量一款产品的重要标准之一。
提到行业赋能,据了解,智领云所提供的云原生大数据平台并不特别强调行业属性,客户在云上主要有两种使用方式。
第一种在公有云上直接使用,主要面向中小客户或者是大客户中的创新团队。这种客户的特点是他们不希望自己来管理一个复杂的大数据平台,但是有一些数据分析的需求,需要这种大数据业务开发的管理方式。
第二种是企业内部使用,这种客户大多已经有大数据平台或者需要搭建大数据平台,但是需要更高效的数据应用开发能力,这类企业往往希望能够把整个开发统一管理起来,并且希望能够与现有的集群一起使用,这也是云原生大数据平台的一个目标使用场景。
正如前文所言,目前云原生大数据平台在圈内逐渐热了起来,这也在一定程度上推动了各个大数据平台厂商进行云原生大数据平台的具体实践。如今,智领云发布的国内第一款纯K8s在线数据平台——BDOS Online,正填补了国内同类产品的空白。
当然,从无到有,从传统到云原生,云原生大数据平台仍需要很长的一段时间去验证。
(雷峰网雷峰网(公众号:雷峰网)雷峰网)