华为的数据基础设施革命

作者：张帅

2019/11/26 00:47

语音播放文章内容

由深声科技提供技术支持

华为在走一条之前没有从未走过的路。继今年9月基于“鲲鹏+昇腾”双引擎全面启航计算战略后，近日华为面向鲲鹏计算产业，宣布全面启动数据基础设施战略。

华为原来是计算产业生态的一部分，更多扮演参与者的角色，而在推动鲲鹏生态的过程中，华为作为发起方，需要考虑的是如何让更多厂商多用、愿意用鲲鹏，为此我们也看到了华为数据库开源等一系列措施，华为正慢慢捋清条理，遵循“硬件开放，软件开源”的主线展开。

一个关键词

数据基础设施，这是本次华为想要传达的核心内容。“我们将围绕数据构建端到端的能力，包括算的能力、存的能力、用的能力，通过5G+云+AI，打造融合智能开放的数据基础设施，真正释放数据的价值，让智能无所不及。”华为Cloud&AI产品与服务总裁侯金龙如是表示。

从计算战略到数据基础设施战略，是华为看待行业角度的变化。

过去企业对于数据重点在于管理，而当下是向数据要收益，数据本身从成本中心转向效益中心，企业所面临的矛盾点是有限的资源与无限的数据增长，数据价值不能即时、高效的释放，这也是数据基础设施要解决的矛盾。

对此华为主要从三方面入手，通过对数据的“采、存、管、算、用”端到端的整合和优化，让数据在全生命周期内能够更好用；通过打破数据处理和数据存储的边界，实现数据高效的共享和分析，降本增效；通过数据虚拟化引擎，统一SQL语言，像数据库一样能够使用大数据，让数据系统真正从孤立走向融合，从复杂走向智能，从封闭走向开放。

华为的数据基础设施革命

“让数据在全生命周期内，每一个比特的成本能够最低，每一个比特发挥的价值更大，这是我们对数据基础设施的定位，也是我们希望的愿景。”侯金龙表示。

在演讲中侯金龙提到，有别于其他公司，华为的数据基础设施主打融合、智能化和开放。

融合：基于在存储、数据库、大数据等技术领域的突破，打破“存储内部系统墙”、“数据库与存储链路墙”、“大数据与存储配置墙”、“数据库与大数据协同墙”四堵墙。这四堵墙的打破，让数据融合更彻底，帮助客户实现TCO降低30%以上、据访问和处理性能提升2倍、分析效率提升100%。
智能：基于AI芯片、存储和华为云的三层架构，通过云上云下结合，云上训练和云下推理，让系统越用越快、越用越省。其中，依托昇腾处理器的AI能力，自动学习和识别IO流，提升Cache预取命中率，系统整体性能提升20%；依托鲲鹏处理器的多核算力，根据不同的数据类型，实时优化数据缩减算法，TCO降低25%；结合华为云自身运大规模维运营经验，当前可以实现提前14天预测硬盘故障，提前60天预测性能瓶颈，提前365天预测容量不足，其中30%的故障可以自我修复。
开放：针对找数难、取数难、用数难的问题，推出数据虚拟化引擎HetuEngine，屏蔽数据类型差异、地域差异、语法差异，让数据治理、使用简单。HetuEngine拥有“一个入口、一个目录、一份数据、统一安全”四大核心能力，通过屏蔽数据基础设施的复杂度，让伙伴像使用“数据库”一样使用“大数据”，复用现有的生态、工具和技能，提升开发效率2到10倍。

两个困难

相比X86的成熟生态，鲲鹏仍处于发展的早期，华为智能数据与存储领域总裁周跃峰坦诚地表示，华为在做数据基础设施主要有两个困难，一个是生态，一个是基础技术。

平台+生态的策略解决的是生态问题。“我们尽量做好底下的各个基础的核心部件，就是存储、计算、大数据、数据库这些核心部件。这些核心的部件别人能够去用，如果天天说在嘴上的核心能力开放，最后在往上面垒应用、垒数据治理的时候，还需要胡伟去做，那这个开放都是说在口头上的。因此，华为开放了河图引擎（HetuEnigne）这样一个中间层。”

会上华为宣布开源HetuEngine，开源版本的河图引擎OpenHetu，将于2020年6月上线。华为将开源内核，开发者可以基于开源代码进行定制，包括数据源扩展、SQL执行策略等，实现应用快速对接，提升开发效率。

周跃峰解释道，Open Hetu首先把北向接口部件开源，确保上层的数据治理和数据应用软件可以更加好的对接数据基础设施，同时把南向接口组件开源，确保更好的集成，方便合作伙伴使用。开源核心引擎确保自主可控，免于锁定。

基础技术方面，周跃峰认为，过去很多的创新是互联网创新、是应用创新，应用下面的基础设施实际上千疮百孔。比如华为虽然推出了基于鲲鹏的服务器，但实际上服务器生态还有待构建。

华为的数据基础设施革命

为此华为也悬红了两大难题：一是实现“自动驾驶”的数据全生命周期治理；二是构建每比特极致性价比的数据存储，单个项目悬红一百万，期望学术界在跨地域分布式操作系统、万节点人工智能治理、千核级异构算力、新型存储介质、类脑智能数据缩减等基础技术方向共同攻坚，构筑更好的数据基础设施。