第4章 搭建CDH大数据平台

CDH(Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。

CM(全称Cloudera Manager)则是为了便于在集群中进行Hadoop等大数据处理相关的服务安装和监控管理的组件,对集群中主机、Hadoop、Hive、Spark等服务的安装配置管理做了极大简化。

CM部署包括如下的软件安装:

● Oracle JDK安装。

● Cloudera Manager Server和Agent包安装。

● 存储相关元数据的数据库安装。

● CDH和管理服务的软件包安装。

Cloudera官方共给出了3种安装方式:

● 第一种方法必须要求所有机器都能连网。

● 第二种方法下载很多包。

● 第三种方法对系统侵入性最小,最大优点可实现全离线安装,而且重装什么的都非常方便。后期的集群统一升级也非常好。这也是我之所以选择离线安装的原因。

在安装部署CM和CDH之前,说明几点:

(1)由于我们的生产环境的集群节点比较多,这里为了方便演示,我们搭建了一个只有4个节点CDH集群,没有搭建ResourceManager的主备,以及没有HDFS的HA等,如果需要的话,可以通过CM进行动态扩展。

(2)我们的实际环境CM和CDH版本已经从5.6.0升级为5.7.0,为了方便朋友部署CDH 5.7.0版本,我们本章都是基于5.7.0版本部署的集群环境,但是截图都是5.6.0版本的(请朋友们谅解),这两个版本的部署界面和安装步骤都没什么变化,具体情况,朋友安装过程中可以进行参考。

(3)后续章节中部署的Kylin集群环境都是基于CDH 5.7.0环境来搭建大数据分析平台。