什么是大数据?《大数据时代》的作者舍恩伯格认为,大数据并不能定义—个确切的概念。大数据是人们获得新的认知,创造新的价值的源泉,大数据是改变市场、组织机构,以及政府和公民关系的方法。
这是更具有人文色彩和社会意义的诠释。显然,也更加清楚地指明了大数据带来的思维变革、商业变革和管理变革。
换句话说,数据给我们带来了两个重要的改变:更多信息、更少成本。
大数据带来变革的同时,也对数据处理的底层技术有着更高的要求。只有找到如何管控越来越多数据的方法,才能实现数据价值最大化。
虽然,目前各行各业对大数据的研究比较火热,但对于大数据治理的研究还处于起步阶段。这尤其体现在对于数据治理没有统一的定义。
例如,IBM对于数据治理的定义是:“数据治理是一种质量控制规程,用于在管理、使用、改进和保护组织信息的过程中添加新的严谨性和纪律性。”DGI 则认为数据治理是指在企业数据管理中分配决策权和相关职责。
抛开宏观定义不谈,如果大数据技术能够探索清楚,那么从微观反推宏观,显然也使定义更加清晰。
在大数据时代,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。
比如,上海交通刷卡信息,分析这些刷卡记录,可以清晰了解上海市民的出行规律,来有效改善城市交通。
但这些出行数据,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。
而在这其中,最关键的问题不仅在数据技术本身,也在于是否实现两个标准:第一,数据记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。
大数据处理技术大致可以分为五个部分:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
以上五个部分的概念,在学术界和工业界有不同的理解。2014 年,数据挖掘大牛吴信东等人从另一个角度探索了大数据处理技术的框架——基于大数据具有异构、自治的数据源以及复杂和演变的数据关联等本质特征提出了 HACE 原理,该原理从大数据的数据处理、领域应用以及数据挖掘三个层次来刻画大数据处理框架。
吴信东现任明略科技集团首席科学家和明略科学院院长,对数据挖掘(Data Mining)、大数据知识工程(BigKE)等领域有很深的认识。
吴信东联合董丙冰,堵新政,杨威等人在软件学报上发表了《数据治理》一文,介绍数据治理和大数据治理的概念、发展以及应用的必要性,其次对已有的数据治理技术——数据规范、数据清洗、数据交换和数据集成进行具体的分析,并介绍了数据治理成熟度和数据治理框架设计。
“HAO 治理”模型架构图
此外,在这个基础上明略提出了大数据“HAO 治理”模型,该模型以支持人类智能(HI)、人工智能(AI)和组织智能(OI)三者协同为目标。
总体来说,HAO能实现四个需求:
1.建立全面、动态、可配置的数据接入机制,满足数据采集、数据汇聚、任务配置、任务调度、数据加密、断点续传等需求。
2. 建立标准化的数据处理流程,形成面向数据内容的数据规范、清洗、关联、比对、标识等转换处理规范模式,为一个组织的数据融合建库提供支撑。
3. 统筹建设多元集成、融合建库的数据组织模式,按照业务类型、敏感程度、隐私内容等关键要素分级分类推进云建库和存储管理,采用特征标签、归一集成等多种手段实现不同来源数据资源关联融合。
4. 构建知识图谱分类,建设多渠道、多维度的数据服务模式,面向使用者提供查询检索、比对排序等基础数据服务,面向专业人员提供挖掘分析、专家建模等智能数据服务。
此文是大数据领域的集大成之作。从另一个层面讲,明略科技用从实践和理论证明了构建大数据处理技术的实力。
随着数据处理技术越来越成熟,当前业界和学界也提出了可以衡量企业底层数据处理技术的"指标":数据中台。
关于数据中台尚没有统一且规范的定义,近日,吴信东在《自动化学报》的最新一篇文章中,基于数据共享和数据价值最大化的原则,将数据中台定义为:将一个机构 (企业、事业、或政府部门) 的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。数据中台建设覆盖数据的逻辑管理和物理管理,逻辑管理包括数据结构的设计和数据之间相关性的分析,如数据仓库;物理管理包括数据的存储和检索。
基于以上定义,明略科技将数据中台的核心可以归纳为“数据资产管理”。其核心功能大概可以归纳为7个部分:
1. 数据的物理管理: 包括多源数据的采集、汇聚、存储、索引和检索。
2. 数据的逻辑管理: 包括: a)数据治理;b)数据之间的层次建模和相关性分析;
3.数据服务: 用数据实现多样化的用户服务。
4.知识图谱建设: 融入机构的知识体系和组织智能, 用以界定数据的来源和数据的服务范围.
5. 数据资产管理: 对数据对象和数据服务进行价值定义、保护、组织和管理, 实现数据价值的最大化。
6.客户关系管理: 采集和分析用户对数据和数据服务的使用行为, 理解和进一步服务用户的需求。
7.信息安全: 保证中台上的数据和服务在物理层和逻辑层都是安全的。
显然,明略科技的数据中台,在融合数据的基础上,更要关注是否能够积累和沉淀行业知识,将数据智能和组织智能融合,形成行业智能,更敏捷更快速的响应前端业务的变化,更好的协作创新。
当前关于数据中台建设尚处于起步阶段, 面临着技术不成熟、框架验证标准不一、技术人员缺乏等困难和挑战。
这向企业发出了数据中台的“破局”之问:“怎样建设数据中台才能满足现实需求”。吴信东在《自动化学报》中提到,必须根据数据特点和应用需求调整各个模块的具体实现。
例如, 在物流领域的数据中台建设中, 面对数据维度高、数据类型复杂、数据量大、实时数据采集困难等问题, 需要有高性能的数据分析和计算平台, 会给现有数据中台建设的技术带来很大的挑战。
根据吴信东提到的原则,回过头来看明略科技归纳的数据中台7大核心功能,能够回答数据中台的“破局”之问。这7个核心功能能够让“从业者”看到三个前景:
1、实现机构数据资产的高效管理和数据价值最大化: 在爆炸式数据增长的时代, 海量数据的存储、管理和价值的实现是企业面对的一个主要问题, 数据中台可望能够有效地盘活机构数据资源, 将其转化为数据资产, 通过更贴近业务数据服务 API 实现数据价值的最大化。
2. 能够迅速根据时代变化调整机构的发展方向和快速创新相应用户需求: 数据中台是一个完整的数据服务体系, 为机构带来了数据平台化的运营机制, 可望解决应用开发与数据开发速度不匹 配的问题, 因而, 数据中台为一个机构根据时代发展要求调整机构的战略提供了契机。
3. 提升机构内团队协作能力: 原始机构的业务各自发展, 可能导致出现烟囱式应用开发和数据孤岛等问题, 数据中台的出现, 可以将机构的核心技术或团队凝聚在一起, 建设机构内强大的数据开发、运营等团队, 提升机构的团队的硬实力和软实力。
产业应用的背后,都是底层技术的支撑。底层技术越雄厚,行业应用越“熟练”。
而数据中台,这一需要理论技术和实践相结合的领域更是如此。例如:
在电力行业,明略科技帮助某省国网建设自己的数据中台。打通了136个业务系统,接入了6300多张报表,2800多亿条数据。将各个业务系统实现数据打通、数据共享,构建了具有贴源层、明细层、汇总层、集市层四层架构的数据仓库,支撑起全省数据服务。设计了15类实体、16种关系、68个属性,通过从不同来源不同的结构数据中进行知识抽取,形成知识存入到知识图谱,并服务于诸如停电范围自动计算等电力行业实际工作。工作人员只需要输入需要计划性维护、排故的台区,根据设备依赖关系精确计算出停电范围。此外,明略科技还在业务侧研发了智能问答助手,巡视人员通过智能问答助手就可以了解输电线路故障解决方案。
图注:智慧零售中台解决方案
在零售行业,明略科技的智慧零售中台,能紧紧把握住数据特点和应用需求,打造柔性供应链,实现拉动式生产;打通信息壁垒,协同企业各部门高效运转;以顾客为中心,个性化精准营销;以数据为依托,辅助企业智能决策;协助企业快速响应并融入创新市场。
营销领域,明略科技的营销数据中台,能够全方位的帮助企业实现数据整合、数据治理、数据建模和数据服务化,涵盖 DMP 和 CDP 所有功能,并能基于企业对于数据的管理需求和商业化应用方向给予定制化支持。助力企业实现基于智能营销和消费者智能运营及管理的数据管理、洞察分析和决策支持、数据激活、数据沉淀及数据闭环管理和应用等全方位营销数字化体系。
判断一个企业的数据治理技术的底蕴,关键要看这个企业的对数据中台这一新兴概念的理解。
明略科技在中台上的优势,恰恰在于,其本身就是大数据的软件产品、平台和智能服务商。基于自身定位,恰好能实现上下衔接,将业务着眼于数据价值的挖掘和应用。
在更多行业领域,通用能力需要横向迁移,而新领域的行业知识和专家经验,需要用做数据治理的经验,再去逐渐匹配行业。
显然,在这一点上,明略科技也很明确自己的方向。雷锋网雷锋网雷锋网