今天全世界市值前五的公司,即苹果、亚马逊、谷歌、微软和Facebook,有一个共同的特点,它们是掌握世界上最多数据、也最会使用数据的公司。
吴军在《浪潮之巅》中揭示当下工业革命的范式:现有产业+大数据=新的产业。
如何正确得使用大数据,将公司现有的业务和市场规模变得更大,成为当代几乎所有企业都必须思考的一个问题。而大数据平台便是这个问题的解决方案之一。
对此,雷锋网采访了京东数科T1大数据平台负责人。
他和我们分享了京东数科T1大数据平台的产品特点和技术特色、在金融领域的服务情况以及在具体实施过程中遇到的困难等内容。
以下为对话实录:
雷锋网:T1大数据平台是一款什么样的产品?
T1大数据平台是一个涵盖数据采集、加工、处理,包括数据资产管理、数据服务和数据应用等一整套从底层到上层的、全生命周期的一站式大数据平台。
平台有两个特点,首先它是一站式的平台,从底层快速地帮助用户搭建一整套的大数据体系,帮助客户迅速完成数据的资产化和价值化,并且通过数据服务层的能力组合,比如数据接口或者画像、标签、相关的系统支撑各种业务场景。
第二,整个大数据平台本身是一个配置式和自动化程度比较高的系统,能为用户提供良好的操作体验,大大降低用户操作门槛。
雷锋网:T1大数据平台面向哪类型的客户?
一般是金融机构,目前我们做的比较多的有民营银行、股份制银行和城商银行,可以简单的分为三类:
第一类金融机构,目前还不具备高效的实时处理和分析功能,它们需要建设一个实时的大数据处理平台。
比如一家中型银行,每年产生的数据量可以达到数十TB,涵盖了应用数据、行为数据和系统日志等多种多样的数据来源和格式。如果没有合适的运营管控工具,这些数据只能“沉睡”在后台,无法发挥价值。
第二类金融机构,具备传统的数据仓库,可以解决分析报表的需求,它们需要建设一个整体的大数据解决方案。
第三类金融机构,本身具备不错的大数据平台能力,但建设的比较分散、孤立,业务之间存在gap,它们需要一些产品,比如数据接口或画像系统,在大数据平台和应用之间架起桥梁。
雷锋网:如果客户本身已经有大数据平台,再对接T1大数据平台,会遇到哪些问题?
客户在已有大数据平台上再采购集成其他的大数据产品,主要会碰到的是兼容适配的问题。
相对于业内某些产品的封闭性和排他性,T1大数据平台是一个开放式的架构,既可以把平台整体输出给用户,也可以按需输出某些子产品作为客户的能力补充。
T1的子产品对外部依赖都做了兼容性的处理,也预留了一些对接接口,可以快速和客户本身已有系统进行对接。比如T1大数据平台曾输出画像产品给某家客户,需要和客户已有的ETL系统进行调度对接,由于画像产品已经预留了调度对接的接口,所以非常顺利地就完成了对接工作。
雷锋网:金融机构十分注重安全性问题,京东数科对此做了哪些工作?
的确,金融公司对数据的归属性都比较敏感,T1大数据平台提供私有化部署的服务,可以把大数据平台部署到客户的环境当中,将数据划定在一定区域中,非公司内部人士不可能直接访问到相关数据,从机制上保证了数据安全。
在使用大数据平台时,对于企业客户内部的操作人员,京东数科提供数据全生命周期的安全管理服务,对敏感数据进行分级分类。这种方式下,操作人员只能接触到一定范围内的数据,保障了操作时的数据安全问题。
雷锋网:T1大数据平台有直接对标的产品吗?国外有Cloudera,Hortonworks,国内有神州信息、华为、星环、明略数据等大数据平台产品,相比这些厂家,T1大数据平台有哪些优势和劣势?
京东数科T1大数据平台具备实时异构的海量数据处理能力,比如实时数据处理平台,已经达到TB级的数据在线实时处理,并且能够提供毫秒级的延时。
此外,京东数科T1大数据平台还提供了一套新的数据服务架构,在以前传统的架构中只能处理结构化的数据,而T1能够对各种结构化、半结构、非结构化的异构数据,实现统一的数据接入、数据整合以及数据加工处理和分析。
雷锋网:之前您说道,T1大数据平台”是一个全套的解决方案,可以给我们讲一讲它“全”在哪里吗?它比较特色的组件又在哪里?
T1大数据平台的“全”主要体现在三个方面:一是产品功能覆盖了从异构数据的采集、存储、加工和使用的数据全生命周期的端到端的整体流程,具备采集的数据类型全,采集的时效性高和使用方式灵活多样的特点。
二是产品操作方式覆盖了大数据技能水平的所有用户群体,既提供了拖拽式、智能化的不需要具备专业大数据技能的便捷操作方式,也为算法工程师、数据科学家等高阶用户提供了自由式的数据探索入口,让平台的作用最大化。
三是在大数据价值链的传递上能够为数据应用的全场景提供良好的支撑,数据接口、标签、模型等服务都可和上层数据应用场景做无缝集成和对接。
有不少比较有特色的组件或功能,比如数据复制组件可以实时解析采集MySQL、Oracle、DB2、HBase和Mongodb等多种主流数据库的数据,在整个业界同类产品中功能也是非常领先和突出的。标签画像组件不仅仅具备标签画像的加工查看功能,还提供了和上层业务的快捷对接方式和应用效果评估,解决了使用上“最后一公里”的问题。
雷锋网:对于一些本身体量较小或者目前数据量积累较少的公司,有人认为没有必要搭建这一套系统,暂时先租用AWS和阿里云就够了。对于数据量大,但数据分析需求较简单的公司,可以直接买Tableau,Splunk,HP Vertica,或者IBM DB2等软件或服务即可。您觉得数据量或者记录规模大概达到什么级别就必须上大数据平台?
大数据平台的使用可能和数据量没有直接的关系。
有的初创公司或者某些行业的公司,对于数据的使用和数据归属性的要求没那么高;有些公司目前的需求是解决一些业务运营分析,它们的确可以去购买一些公共的服务。但是当这些公司发展到一定阶段之后,如果想去更好的开展一些业务,比如说营销拓客、在线个人信贷或者风控,是需要具备大数据平台能力的。
雷锋网:T1大数据平台是开源的吗?
T1大数据平台的底层基于开源的生态体系来打造,这样能帮助我们的客户去利用到开源生态体系的一些能力,支撑业务的发展。但就产品本身来说,目前不开源。
雷锋网:T1大数据平台从开始定制到正式使用,一般需要多长时间?
目前,T1大数据平台已经是非常成熟的一套标准化的产品。我们也提供了一键式安装部署的服务,可以把T1大数据平台以标准化的方式,非常迅速的融入客户的IT系统中。基本上一周之内,它就可以实现投产运行。
雷锋网:您提到,一周内可以完成产品的部署。那把产品从0到1部署到银行原有IT系统的大致流程是什么样的?你们这一周主要干哪些事?
T1大数据平台为了保障对客户的交付效率和体验,更多的工夫会体现在这一周之外。从技术层面上,T1大数据平台可以实现自动化和容器化的安装部署模式;从交付方式上,专业的交付实施团队会提前和客户规划好部署架构,并在T1大数据平台的自有演练环境完成部署演练,从而达到在客户现场最快速部署落地的效果。
雷锋网:在这一周的部署过程中,你们需要帮银行IT部门解决的最复杂的技术和系统对接问题,您认为是什么?
在真正部署的阶段前,我们会同银行IT部门一起来解决适配和对接的问题。在银行落地过程中,主要会碰到基础环境兼容、既有系统对接和客户自有工作流程的衔接等问题,相对来说既有系统的对接是比较复杂的部分,T1大数据平台各个子产品对可能发生外部交互的功能逻辑进行了抽象封装,以接口化、插件化的方式实现最小化代价的对接。