如果将数据科学家比作医生的话,那么数据科学本身便既是行医技能,又是行医工具。
1974年, 因科学研究计算机模拟产生了大量数据,需要依靠算法发现其中规律,图灵奖得主Peter Naur首次提出了数据科学(Data Science)的概念:基于数据处理的科学,这标志着数据科学的开端。
当今世界,随着互联网的发展,数据无处不在,要想利用好大数据,揭示数据中的隐藏规律,并帮助组织利用这种洞察来做出更明智的决策,就需要数据科学,也就是说必须首先收集、处理、分析和分享这些数据。管理这个数据生命周期便是数据科学的本质。
3月30日,2023数据科学峰会在北京举行。关于数据科学如何帮助企业释放数据价值的相关问题,雷峰网与相关媒体在会后与IDC中国副总裁兼首席分析师武连峰、百分点科技董事长兼CEO苏萌、百分点科技CTO刘译璟进行了深入的交流。
现有平台、工具已经无法完全发掘数据的价值
根据IDC数据,2021年,全球数据总量达到了84.5ZB,预计到2026年,全球结构化与非结构化数据总量将达到221.2ZB。武连峰认为如此多的数据量,对于现有的工具、平台、算力处理会带来非常大的挑战。而数据类型多样、数据孤岛、以及数据安全性等很难保证,还有云端部署和私有部署软件适配难度大、实时数据分析能力欠缺等挑战,都使得数据的价值无法得到充分的发挥。
在他看来发挥数据价值,需要打造三方面的能力:第一,数据的获取和治理能力;第二,做数据挖掘与展现的能力;第三,数据的变现和创新能力。
目前政企数字化转型已经进入到一个深水区。武连峰表示,如果把数字化转型从低到高分成五个阶段,二三阶段占比已经超过2/3,到第四个阶段还一直处在上山爬坡的阶段,爬到一个中上快到山顶的时候,这时候是最难的。
另外,大数据、AI、云等,很多技术是一个融合的应用,而融合应用对于企业也带来一定的挑战。随着技术的断代式发展,数智基础设施也呈现断点式建设,企业不得不投入大量资源重复建设,以完成技术更迭和应用升级。
如果要应用好数据,只有将场景、技术和数据深度融合才能创造价值。
今天很多政企里面,数据还存在一个不足的现象。尤其中小企业数据还是不足的;政企虽然有大量的数据,但是数据治理、数据孤岛的现象还非常严重。因此,在武连峰看来,首先,面向数据治理一定要打造一个统一的数据治理平台,将数据变干净;其次需要一个智能化的分析工具,将数据信息变成知识;最后是实现高效的数据智能化应用。
新的技术和应用带来更加丰富的数据、多模态的数据,而这些数据需要进入到可分析、可解释,需要让它用得起来,需要参与到真正的预测和决策大的场景中来。苏萌表示,数据科学在过去50年里从1.0的小数据时代,2.0的大数据时代,走入了3.0的AI时代,未来将迈向数据原生时代。当下市场需求不再是断点式技术和工具,而是端到端的数据科学解决方案,在长链条里实现数据价值。
而国内外一些顶尖的公司像华为、阿里、Plantir、Alteryx包括百分点,开始纷纷的去沉淀整体的产品技术和解决方案。那么问题来了,企业到底应该如何选择一个适合自己得数据科学技术平台呢?
企业应该选一个什么样的数据科学基础平台?
用数据,归根结底是想让数据创造业务价值,而不是为了用数据而用数据。
以前的用户更加关注单点问题的解决,现在数据从采集、治理、分析、建模、预测到应用整个周期更加长,用户更希望帮助他解决价值实现的问题。
苏萌认为,百分点的数据价值链够长,百分点科技沉淀了十三年的经验和实践推出的科学基础平台--DeepMatrix,是一套端到端的数据科学技术平台。从规划设计、数据治理、建模分析和数据应用四大阶段,覆盖数据价值实现的全生命周期,具备全面数据类型支持、完善数据治理能力、强大数据建模能力、丰富数据洞察能力、高效知识生产能力和高度复用领域知识六大能力。
刘译璟认为,当前主要的流程和工具已经覆盖齐全,未来将聚焦于领域知识的沉淀和复用。据介绍,百分点数据科学基础平台系列产品,主要致力于解决数据价值链中的共性问题,面向数据工程师、数据分析师和数据科学家群体,提供能力全面、交互自然知识驱动的通用工具,具有创新意识和数字化基础比较好的成熟的数字化中晚期的用户时百分点的目标客户。
当问及相比于同类市场产品,百分点数据科学基础平台的优势是什么?
刘译璟告诉记者,竞争优势其实一直也是我们在思考的问题,如果概括来说的话主要有两个方面:
第一方面,百分点能力很全,因为入行比较早,一直做一款应用,以至于始终保持的都是全栈的数据可用的能力。现在越来越多的创业公司已经很难做到比较全面的能力,只能依托云大厂,做一些小而美的功能,解决部分问题。
第二方面,应用场景的选择、领域的选择,会形成差异化。百分点数据科学基础平台具备两大特征,知识化和智能化。
首先是知识化,平台不断沉淀领域中的数据科学知识,包括程序性知识、事实性知识和概念性知识。传统企业的数字化转型面临着冷启动问题,平台能够借助行业内已有的专业知识为其破局。其次是智能化,数据科学基础平台内置了智能辅助开发系统,可以自动化地辅助开发者选择方案以及完成数据适配,并智能化地进行方案精调和改进。同时,能够在数据治理的多个环节依托知识库及语义理解等智能技术帮助开发者提高效率。
刘译璟告诉雷峰网(公众号:雷峰网),任何产品都不是一蹴而就的。从最早做推荐引擎,就涉及了海量的用户数据,最大规模的时候,大概有一千多台服务器,我们要在上面做机器学习的算法、运营指标的分析等,经过了13年,我们一直在持续迭代自己的技术能力,并通过不断的落地实践,才固化了产品模式。我们把底层的平台做出来以后,客户就不需要很长的时间周期和人力,帮助客户提升效率,这是我们打造这个产品的初衷。
苏萌在最后表示:“过去的50年在数据科学不断发展和变迁,从我个人来说,个人成长、求学、做科研、又出来创业,自己感悟到一点特别深的是,信息技术真的在改变人类,信息技术创造了数字的世界,而数字的技术又在推动数字经济的不断发展,数字经济又推动了人类和组织社会的变革,而且变革又进一步为创新提供了土壤,其实我们不断的循环在往前走。我们也在感受着使命的召唤,百分点科技的使命就是继续致力于‘用数据科学构建更智能的世界’。”