Spark大数据平台应用实战

作者 : 开心源码 本文共2789个字,预计阅读时间需要7分钟 发布时间: 2022-05-12 共171人阅读

对于一个具备相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人惊诧。2009年,Spark诞生于伯克利大学AMPLab,于2010年正式开源,2013年成为了Apache基金项目,2014年成为Apache基金的较高级项目,整个过程不到五年时间。

2015年是Spark飞速发展的一年,Spark成为了现在大数据领域最火的开源软件,截止2015年,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。

学习它并掌握它,是大数据风口下IT人的必备技能。本课程全程将通过以下内容的实战演练,带你玩转Spark!

本课程将会结合精典案例讲解Spark Job的整个生命周期,以及如何划分Stage,如何生成逻辑执行计划和物理执行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle详细分析Spark Shuffle机制的原理与演进,同时结合Yarn分析Spark的内存模型以及如何进行相关调优,其中两节课主要详情Spark Streaming使用方式,分析通用流式解决系统的关键问题以及Spark Streaming对相应问题的处理方案,如窗口,乱序,Checkpoint等,并分析Spark Streaming与Storm和Kafka Stream各自的优缺点和适用场景。

最后将结合源码分析Spark SQL的原理,以及实现SQL引擎的一般方法,详情如何进行Spark SQL性能优化。并结合大量真实案例,分析如何处理数据倾斜问题从而提高应用性能。

课程大纲:

很多初学者,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入理解,想学习的同学欢迎加入大数据学习企鹅群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。


第一课. Spark背景详情与安装部署

? ? ? ? ? ? ?1.1 Spark在大数据生态中的定位

? ? ? ? ? ? ?1.2 Spark主要板块详情

? ? ? ? ? ? ?1.3 Spark部署模型详情

? ? ? ? ? ? ?1.4 Spark基于Ambari的安装

? ? ? ? ? ? ?1.5 Spark Standalone下的HA

第二课. 基于Java的Spark编程入门

? ? ? ? ? ? ?2.1 Spark应用中的术语详情

? ? ? ? ? ? ?2.2 交互式工具spark-shell

? ? ? ? ? ? ?2.3 从Word Count看Spark编程

? ? ? ? ? ? ?2.4 spark-submit的几种用法

第三课 Spark常用算子详情

? ? ? ? ? ? ?3.1 transform与action

? ? ? ? ? ? ?3.2 广播变量与累加器

? ? ? ? ? ? ?3.3 persist与checkpoint

? ? ? ? ? ? ?3.4 数据本地性(Data locality)

第四课. 一个Spark应用的一生

? ? ? ? ? ? ?4.1 Spark应用的Stage划分

? ? ? ? ? ? ?4.2 窄依赖 vs. Shuffle依赖

? ? ? ? ? ? ?4.3 Job逻辑执行计划

? ? ? ? ? ? ?4.4 Job物理执行计划

第五课. Shuffle机制变迁

? ? ? ? ? ? ?5.1 Hadoop Shuffle方案

? ? ? ? ? ? ?5.2 Spark Hash Shuffle

? ? ? ? ? ? ?5.3 Spark Sort Shuffle

? ? ? ? ? ? ?5.4 Spark Tungsten Sort Shuffle

第六课. Spark SQL实战

? ? ? ? ? ? ?6.1 Spark SQL前世今生

? ? ? ? ? ? ?6.2 RDD vs. Dataframe vs. Dataset

? ? ? ? ? ? ?6.3 使用外部数据源

? ? ? ? ? ? ?6.4 连接metastore

? ? ? ? ? ? ?6.5 自己设置函数

? ? ? ? ? ? ?6.6 spark-sql与Spark thrift server

第七课. Spark SQL原理

? ? ? ? ? ? ?7.1 Spark SQL执行过程解析

? ? ? ? ? ? ?7.2 Catalyst原理

? ? ? ? ? ? ?7.3 SQL引擎原理

? ? ? ? ? ? ?7.4 Spark SQL优化

第八课. 例讲数据倾斜处理方案

? ? ? ? ? ? ?8.1 为何需要解决数据倾斜

? ? ? ? ? ? ?8.2 调整并行度,分散同一Task的不同Key

? ? ? ? ? ? ?8.3 自己设置Partitioner,分散同一Task的不同Key

? ? ? ? ? ? ?8.4 Map Join代替Reduce Join消除数据倾斜

? ? ? ? ? ? ?8.5 为倾斜key添加随机前缀

? ? ? ? ? ? ?8.6 大表添加随机前缀,小表扩容

第九课. Spark Streaming上

? ? ? ? ? ? ?9.1 Spark Streaming示例

? ? ? ? ? ? ?9.2 流式系统关键问题分析

? ? ? ? ? ? ?9.3 Window操作

? ? ? ? ? ? ?9.4 如何在流数据上做Join

? ? ? ? ? ? ?9.5 Checkpoint机制

第十课. Spark Streaming下

? ? ? ? ? ? ?10.1 如何解决数据乱序问题

? ? ? ? ? ? ?10.2 Spark Streaming容错机制

? ? ? ? ? ? ?10.3 Spark与Kafka实现Exactly once

? ? ? ? ? ? ?10.4 Spark Streaming vs. Storm vs. Kafka Stream

? ? ? ? ? ? ?10.5 Spark Streaming性能优化

? ? ? ? ? ? ?10.6 Structured Streaming

第十一课. Spark MLlib

? ? ? ? ? ? ?11.1 Pipeline

? ? ? ? ? ? ?11.2 特征工程

? ? ? ? ? ? ?11.3 模型选择

? ? ? ? ? ? ?11.4 调优

第十二课. Spark优化

? ? ? ? ? ? ?12.1 应用代码优化

? ? ? ? ? ? ?12.2 Spark统一内存模型

? ? ? ? ? ? ?12.3 基于YARN的参数优化

? ? ? ? ? ? ?12.4 其它优化项

授课时间:

课程估计2017年10月26日开课,估计课程持续时间为14周

授课对象:

Java开发转大数据开发

具备肯定Hadoop或者其它分布式应用基础,转Spark开发

希望在Spark开发和原理上有所提升的大数据开发人员?

课程环境:

Spark 2.1、Hadoop 2.7.3+

收获预期:

1. 掌握Spark核心原理,包括但不限于Spark Job的执行过程,Shuffle机制

2. 理解如何对Spark Job进行性能优化,包括但不限于参数调优,数据倾斜优化,应用代码调优

3. 掌握Spark Streaming的原理及使用方式,并掌握如何结合Spark Streaming和Kafka实现正好一次解决语义

4. 理解流式解决系统的常见问题和处理方案?

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Spark大数据平台应用实战

发表回复