1.4 云数据湖架构

要了解云数据湖如何帮助满足组织不断增长的数据需求,必须首先了解几十年前数据处理和预测的工作原理。企业通常认为数据是对需要解决的业务问题的补充。该方法以业务问题为中心,包括以下步骤:

1.确定要解决的问题;

2.定义有助于解决问题的数据结构;

3.收集或生成符合结构的数据;

4.将数据存储在OLTP(在线事务处理系统)数据库中,例如,Microsoft SQL Server;

5.使用转换(过滤、聚合等)将数据存储在OLAP(在线分析处理系统)数据库中,这里也使用SQL服务器;

6.从这些OLAP数据库构建商业智能仪表盘和查询,以解决业务问题。

例如,当一个组织(企业)想要了解销售时,它为销售人员构建了一个应用程序,用于输入他们的潜在客户、客户和参与度以及销售数据,并且该应用程序由一个或多个操作数据库支持。可能有一个数据库存储客户信息,另一个存储销售人员的员工信息,第三个数据库存储引用客户数据库和员工数据库的销售信息。本地部署(称为“on prem”)有三层,如图1-4所示。

企业数据仓库

企业数据仓库是存储数据的组件,包含一个用于存储数据的数据库组件和一个用于描述存储在数据库中的数据的元数据组件。

数据集市

数据集市是企业数据仓库的一部分,其中包含以业务或主题为中心的数据库,这些数据库中的数据已准备好为应用程序提供服务。企业数据仓库中的数据经过转换后存储在数据集市中。

消费层/商业智能层

这包括BI分析师用于查询数据集市(或数据仓库)中的数据以生成见解的各种可视化和查询工具。

图1-4:传统的本地数据仓库