连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

AWS 数据湖云计算

作者：王刚

2020/03/26 14:37

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

亚马逊曾经是Oracle全球数据库最大的用户，我们使用了75PB的数据库，用了7500多个数据库的例子，整个亚马逊里面1000多个不同的团队，从运营、电商、市场营销、库存，几乎业务的很多方面原来都是基于Oracle的数据库。
我们在过去一年半到两年的时间做了一件事情，就是全方位的迁出了Oracle的数据库，去年大概11月份我们全部迁移了Oracle的数据库，迁移到了我们自己相对应的产品。这个迁移解决了原来扩展困难、费用昂贵，像Oracle支持高额费用等等一系列的问题，减少了数据库费用成本60%，减少了管理费用70%，增加的性能高达40%。

在近日的一场媒体沟通会上，AWS首席云计算企业战略顾问张侠如此感慨。这相似的一幕，雷锋网编辑曾经两次在AWS re:Invent现场听到亚马逊CTO沃纳·威格尔提起过。

然而，当年那场大获全胜的“去O”仅仅只是开始，实际上AWS多年来对于数据做了相当多的细致工作。

就在3月24日这天，AWS连续宣布2个新产品正式在由西云数据运营的AWS中国（宁夏）区域上线：AWS Glue 和 Amazon Athena。

从具体功能来看：

AWS Glue在由西云数据运营的AWS中国（宁夏）区域正式上线。AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据，加载数据到数据库、数据仓库和数据湖，用于数据分析。使用AWS Glue，在几分钟之内便可以准备好数据用于分析。由于AWS Glue是无服务器服务，客户在执行ETL任务时，只需要为他们所消耗的计算资源付费。
Amazon Athena在由西云数据运营的AWS中国 (宁夏) 区域正式上线。Amazon Athena是一种交互式查询服务，它让客户可以使用标准SQL语言、轻松分析Amazon Simple Storage Service (Amazon S3) 中的数据。由于Athena是一种无服务器服务，因此客户不需要管理基础设施，而且只为他们运行的查询付费。Athena可以自动扩展，并行执行查询，所以即便是大型数据集和复杂的查询，也能很快获得查询结果。

这2个发布，也意味着AWS在数据湖和数据分析的解决方案上越趋完整。

沟通会上，张侠也对AWS的数据工作进行了深入阐释，对AWS的数据服务、产品、重要概念及操作手法做了介绍，同时揭示了AWS构建数据湖进行分析的背后逻辑。

雷锋网特在其原话基础上做了不改变原意的编辑与整理。

亚马逊是怎么来实现数据湖的概念的?

数据湖的概念大概最早是2011年5月份提出来的，所以到现在只有八九年的时间。

亚马逊在很早的时间就推动了有关数据湖的内容，首先亚马逊有一个最基础的云服务，这个服务叫做Amazon S3，是2006年3月14日白色情人节的那天发布的，是全球所有的公有云服务的第一款。Amazon S3可以存任何二进位为基础的任何信息，包含结构化和非结构化的数据。左边这个图上半部的服务，可以围绕这些数据来做各种各样的操作。底下画的是一些做数据转移的工具。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

从右边可以大致看一下数据湖的流程图或者平台架构图，总的来说各种各样的数据，从镜头来的、从手机来的、从数据库来的、从汽车上来的、从风力发电的发电机来的等等所有各种形式的数据，我们把它通过一定的方法提取出来，产生了之后存储下来，做一个目录登记，然后把它存在S3这个数据存储，也是数据湖的核心里面。

然后再用各种各样的分析手段把这些数据在右边拿出来，它还可以还原成数据仓库的性质，也可以变成各种报表，也可以变成一些预测，也可以用来做机器学习的分析。所以这个是整个数据湖的概念。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

基于此，我们看到数据湖是一个对各种各样原始数据，就像雨水、河水等等，我们用洼地把它存起来，这里面有各种各样的数据，我们在这之上可以做我们所需要的各类数据分析，有交互式的查询、有运营的分析、也可以把数据进行交换甚至是买卖，可以可视化的看到这些数据，可以做实时的分析，可以做推荐、做预测，做所有的数据所需要的功能。

从AWS的角度讲，我们有相应的服务来实现刚才所说的每一个功能。我会为大家做一下这些服务的简单介绍。所有这些服务在我们的网站上都有很详细的中英文介绍。所有这些服务都是以云的方式提供的，非常简洁、非常容易上手，有很多还有操作的引导性质的内容。

我们在此之前已经讲了我们有Amazon S3，可以存所有各类的数据，它有11个9的数据持久性，它是在云上面三个可用区存了六份，互为备份。它后端还有一个冷存储叫Amazon Glacier (glacier的意思是冰河) 。如果这个数据不常用，我们可以转到那里面，费用可以降低很多，只是多需要三四个小时把它拿出来。

冷存储还有一个深度的冷存储Deep Archive。除了这个以外，在我开始讲之前，还有一个叫Amazon DynamoDB，是一个非关系型数据库，存键值这类的数据。在游戏里面比如每个玩家是第几级、有多少血、用什么样的武器，这样的数都是键值配对的数。全球有大量这样的数据都存储在Amazon DynamoDB这样的非关系型数据库。

看一看其他的服务。一个是Amazon RDS服务，RDS全称是Relational Database Service，是一个托管的关系型数据库，这个是从AWS角度最早云计算推出的关系型数据库，它支持像SQL Server、Oracle的数据库、开源的PostgreSQL、MySQL这样的数据库。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

我们很快又推出了我们专有的Amazon Aurora数据库，这是一个关系型数据库，是云原生的。刚才那个是托管在云上的关系型数据库，现在这个Aurora是一个全部的全方位托管的，可以兼容MySQL和PostgreSQL纯原生的数据库。

这个数据库推出以后，是AWS所有的云服务里面增长速度最快的一个服务，有大量的用户，到目前为止，我提到这些服务都是在中国落地了，也都是在国内提供的。

很重要的一个产品是一个云的产品，叫Amazon Redshift，它是一个数据仓库，但是它是一个云的数据仓库，非常强大，非常能够缩放，成本也是传统的数据库的大概1/10左右。如果你从数据库还需要到数据仓库，大家看到在云上我们同样完全可以实现这些解决方案，从数据库到数据仓库。而且数据仓库我们还有很多很多新型的准备，在这次会议当中不可能完全提到。

我给大家报告一下其中包括图形数据库Amazon Neptune，全球发布之后，在过去的半年之内也在中国落地。所以中国用户也能使用最新型的图形数据库。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

还有一类是Amazon EMR，EMR是Elastic MapReduce，它是用集群，用类似开源我们常听说的Hadoop的方法来做大数据的集群分析。这个EMR产品是亚马逊云上做海量大数据的研究它们之间的相关性的方法，这个产品我们也有了很长时间，在国内也早已提供。

还有一个很重要的概念，就是来处理实时的数据，因为和原来的比，现在的特点是更多要使用实时的数据，原来更多的是批量的历史数据，处理实时数据我们的服务叫Amazon Kinesis，还有四个不同的类型，有的是直接处理视频的数据流，有的是可以把数据直接导到关键的服务，每个各自都有不同的用法。这个实时数据分析是分析框架很重要的一部分。

两个数据湖中重要服务：Amazon Athena和AWS Glue

重点给大家推介的是下面两个服务，都是数据湖非常重要的组成部分，我们是在今年第一季度才在中国正式发布的。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

第一个产品叫做Amazon Athena，英文Athena意思是雅典娜，这是交互式的数据查询的工具。我们把各种数据都存在S3上面了，使用SQL可以直接在S3里面对这些数据做查询，所以它是交互式的查询，使得快速存起来的海量的数据有个工具可以像传统的使用SQL语言一样的方法，标准的数据库查询的语言，直接对S3做数据的查询。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

第二个服务叫做AWS Glue，Glue是胶水的意思，是不同的数据库服务之间的连接的作用。最主要有两个功能，一个是ETL，ETL是Extract、Transform和Load，是数据里面一个最基本的操作，翻译过来就叫数据的抽取、转换和加载。原来从数据库提到数据仓库使用的都是ETL，所以Glue同时还是行使着数据的抽取、转换、加载的功能。另外还多了一个功能，就是数据目录服务的功能，因为把这些数据都存在数据湖里面，在这个过程中，要对这些数据打上标签，把它做分类的工作。而且Glue有一个直接就像爬虫一样对数据湖里的海量数据，通过它的自动爬取，生成数据目录的功能。

所以这两个服务我们在海外推出有一段时间，但是我们在今年在国内都完成了它们的正式发布，所以目前我们和光环新网联合运行的北京的区域，还有和西云数据在宁夏中卫运营的区域里面，都已经提供了这些服务。

虽然数据湖是一个非常好的办法，但是还是稍微有一定的复杂度。我非常快的介绍一下数据湖的操作步骤。

我们把数据设置好，存起来，然后把这些数据需要移动、加载到不同的地方，然后把数据清理好，建成数据目录。要管理的这些存储，然后把这些数据要安全的、合规的存好、管好，然后需要的时候有些工具把这些数据拿出来做各种分析。这就是数据湖操作的一些步骤。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

我们也专门推出了一个服务，这个服务叫做AWS Lake Formation，是在前年的技术大会上我们发布的，这个服务目前还没有在中国正式推出，但是我们在今年很快的时间内会推出这个服务，把建立数据湖刚才的这套工作自动化，帮助你来操作，可以使很多企业在短短的几天的时间完成数据湖的建设工作。

从亚马逊来说，我们还有一些更多的服务，比如我们有量子的记账式的数据库、有时间序列的数据库，还有两三个新型数据库目前还没有提供。

在这之上是数据湖，数据湖最主要的元素是三大元素：一个是Amazon S3/Glacier，一个是AWS Glue，一个是AWS Lake Formation。AWS Lake Formation是目前没有提供，但是很快会提供的一个产品服务。

数据分析的工具，Amazon Redshift是数据仓库，Amazon EMR是大数据分析，AWS Glue在里面仍起关键作用，来实现无服务器的数据分析，然后是Amazon Athena (雅典娜) 是做交互式的分析，Amazon Elasticsearch是做一些运维分析，还有Amazon Kinesis做实时的数据分析。

最上面是我们的一些展现工具，有图形可视化的Amazon QuickSight，还有Amazon Polly、Amazon Transcribe、Amazon SageMaker。Amazon SageMaker是一个人工智能的服务，在中国很快会推出。

所以整个大数据分析服务的全景图就以这张图给大家展示出来。绝大多数服务在中国都已经落地，我们已经全方位的可以提供最先进的数据湖的大数据分析，我们有很多客户来使用。

为什么使用AWS来构建数据湖和进行分析？

为什么使用AWS来构建数据湖和进行分析呢？

简而言之，它既好用又高效又全面又安全，又能满足多种多样的需求。AWS的创新都是围绕客户需求来做的。

Forrester 2019年大数据分析的报告，AWS是排在最高的位置，其实还有类似的一些其他的，比如Gartner的数据库的分析报告，还有数据管理工具解决方案的报告，我们都排在很好的位置。在全球范围内，包括在中国，其实有大量的各种各样的无论是互联网公司还是传统企业公司都在使用AWS的数据分析、数据湖的分析工具。

即使是使用了全套数据湖的也有上万家企业，其中大家看到有Airbnb，yelp相当于美国的大众点评，有旅行的公司，有最大的制药公司等等，几乎覆盖了各行各业。

不用讲别人，就讲讲亚马逊自己。

连续推出2款数据湖新品，AWS张侠剖析亚马逊的数据核心竞争力

亚马逊曾经是Oracle全球数据库最大的用户，它使用了75PB的数据库，用了7500多个数据库的例子，整个亚马逊里面1000多个不同的团队，从运营、电商、市场营销、库存，几乎业务的很多方面原来都是基于Oracle的数据库。

我们在过去一年半到两年的时间做了一件事情，就是全方位的迁出了Oracle的数据库，去年大概11月份我们全部迁移了Oracle的数据库，迁移到了我们自己相对应的产品。这个迁移解决了原来扩展困难、费用昂贵，像Oracle支持高额费用等等一系列的问题，减少了数据库费用成本60%，减少了管理费用70%，增加的性能高达40%。

另外一个例子，就是亚马逊其实在整个企业内部建立了一个数据湖，这个数据湖还专门有一个内部的词，叫Galaxy （银河），这不是AWS的一个产品，这是亚马逊的一个数据湖的部署。

整个数据湖把亚马逊的数据整合在一起，做各种各样大数据的分析，里面存了50PB到100PB的数据，这里面通过它，亚马逊每一天有多达60万的分析任务，各种各样的数据的分析，从给用户的推荐、各种运营的信息、库存的信息、需要购买的信息、物价的信息，都是可以通过数据湖来实现的功能。

这也是亚马逊的一个核心竞争力。（雷锋网）

芯片问世、Outposts上市、SageMaker大更新，AWS如何成为“规则改变者”？

对话AWS：开源与创业生态是推动云增长的“新马车”

AWS宣布推出香港区域或切割阿里云亚太市场份额

对话容永康、田溯宁：AWS如何在中国云计算市场掀起风暴？