Spark分布式处理实战
上QQ阅读APP看书,第一时间看更新

如何阅读本书

本书以项目实践作为主线,结合必需的理论知识,以任务的形式进行设计。每个任务都包含任务描述及任务实施的步骤,读者按照实施步骤进行操作就可以完成相应的学习任务,不断提升项目实践能力。

各项目的主要内容如下。

项目1讲解Spark基本原理,通过案例实现Spark集群的安装和配置,完成Spark任务集群提交与运行的任务。

项目2讲解如何基于IDEA搭建Spark开发环境,编写Spark单词统计程序,将程序部署到Spark集群中并运行。

项目3介绍RDD的基本原理,通过案例讲解Spark RDD转换算子和行动算子的使用方法、RDD分区的原理、共享变量的实现原理。

项目4通过案例讲解Spark SQL基本操作流程,Spark SQL常用的数据源的使用方法,Spark SQL内置函数和自定义函数的使用方法,Spark SQL的关联表、分组集合、排序等操作方法。

项目5介绍电商业务系统的基本流程,通过案例讲解电商系统数据库的设计方法以及电商数据分析的基本流程。

项目6以一个国内某大型电商APP系统提供的用户行为数据作为分析对象,讲解电商用户行为分析的基本指标以及分析过程,主要包括用户访问量分析、用户购买行为分析及各阶段转化率分析等。

项目7以国内某大型电商平台提供的美妆商品销售数据集作为分析对象(数据集时间涵盖了双十一电商购物节),通过不同的维度对销售数据进行分析,主要维度包括店铺维度、商品维度等。

项目8以国内某大型电商平台提供的订单数据集作为分析对象,通过不同的维度对订单数据进行分析,主要维度包括时间维度、区域维度等。

项目9介绍常用的可视化分析图表的应用场景,以电商用户行为分析指标、电商销售数据分析指标以及电商订单数据分析指标作为数据可视化分析的指标,讲解Superset数据可视化分析工具的使用方法。