第3章
Spark的灵魂:RDD和DataSet

本章重点讲解Spark的RDD和DataSet。3.1节讲解RDD的定义、五大特性剖析及DataSet的定义和内部机制剖析;3.2节对RDD弹性特性七个方面进行解析;3.3节讲解RDD依赖关系,包括窄依赖、宽依赖;3.4节解析Spark中DAG逻辑视图;3.5节对RDD内部的计算机制及计算过程进行深度解析;3.6节讲解Spark RDD容错原理及其四大核心要点解析;3.7节对Spark RDD中Runtime流程进行解析;3.8节通过一个WordCount实例,解析Spark RDD内部机制;3.9节基于DataSet的代码,深入分析DataSet一步步转化成为RDD的过程。