春节 幸运飞艇 > 选课中心 > 分布式系统 > 【快班】Spark大数据平台应用实战
【快班】Spark大数据平台应用实战
此课程所属 【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业,报名专业套餐,可享受0元学习特惠!点击了解详情
随报随学 共12课 ★★☆
开课时间 课程周期 难易度
招生中

立即报名
SQL 模型 大数据 Spark Kafka
课程介绍
对于一个具有相当技术门槛与复杂度的平台,Spark从诞生到正式版本的成熟,经历的时间如此之短,让人感到惊诧。2009年,Spark诞生于伯克利大学AMPLab,于2010年正式开源,2013年成为了Apache基金项目,2014年成为Apache基金的顶级项目,整个过程不到五年时间。

2015年是Spark飞速发展的一年,Spark成为了现在大数据领域最火的开源软件,截止2015年,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行,不但大量的互联网企业已经在使用或者正准备使用Spark,而且大量的电信、金融、证券和传统企业已经开始引入了Spark。

学习它并掌握它,是大数据风口下IT人的必备技能。本课程全程将通过以下内容的实战演练,带你玩转Spark!

本课程将会结合精典案例讲解Spark Job的整个生命周期,以及如何划分Stage,如何生成逻辑执行计划和物理执行计划。从Hash Shuffle到Sort Shuffle再到Tungsten Sort Shuffle详细分析Spark Shuffle机制的原理与演进,同时结合Yarn分析Spark的内存模型以及如何进行相关调优,其中两节课主要介绍Spark Streaming使用方式,分析通用流式处理系统的关键问题以及Spark Streaming对相应问题的解决方案,如窗口,乱序,Checkpoint等,并分析Spark Streaming与Storm和Kafka Stream各自的优缺点和适用场景。

最后将结合源码分析Spark SQL的原理,以及实现SQL引擎的一般方法,介绍如何进行Spark SQL性能优化。并结合大量真实案例,分析如何解决数据倾斜问题从而提高应用性能。
课程大纲
第一课. Spark背景介绍与安装部署
            1.1 Spark在大数据生态中的定位
            1.2 Spark主要模块介绍
            1.3 Spark部署模型介绍
            1.4 Spark基于Ambari的安装
            1.5 Spark Standalone下的HA

第二课. 基于Java的Spark编程入门
            2.1 Spark应用中的术语介绍
            2.2 交互式工具spark-shell
            2.3 从Word Count看Spark编程
            2.4 spark-submit的几种用法

第三课 Spark常用算子介绍
            3.1 transform与action
            3.2 广播变量与累加器
            3.3 persist与checkpoint
            3.4 数据本地性(Data locality)

第四课. 一个Spark应用的一生
            4.1 Spark应用的Stage划分
            4.2 窄依赖 vs. Shuffle依赖
            4.3 Job逻辑执行计划
            4.4 Job物理执行计划

第五课. Shuffle机制变迁
            5.1 Hadoop Shuffle方案
            5.2 Spark Hash Shuffle
            5.3 Spark Sort Shuffle
            5.4 Spark Tungsten Sort Shuffle

第六课. Spark SQL实战
            6.1 Spark SQL前世今生
            6.2 RDD vs. Dataframe vs. Dataset
            6.3 使用外部数据源
            6.4 连接metastore
            6.5 自定义函数
            6.6 spark-sql与Spark thrift server

第七课. Spark SQL原理
            7.1 Spark SQL执行过程解析
            7.2 Catalyst原理
            7.3 SQL引擎原理
            7.4 Spark SQL优化

第八课. 例讲数据倾斜解决方案
            8.1 为何需要处理数据倾斜
            8.2 调整并行度,分散同一Task的不同Key
            8.3 自定义Partitioner,分散同一Task的不同Key
            8.4 Map Join代替Reduce Join消除数据倾斜
            8.5 为倾斜key增加随机前缀
            8.6 大表增加随机前缀,小表扩容

第九课. Spark Streaming上
            9.1 Spark Streaming示例
            9.2 流式系统关键问题分析
            9.3 Window操作
            9.4 如何在流数据上做Join
            9.5 Checkpoint机制

第十课. Spark Streaming下
            10.1 如何处理数据乱序问题
            10.2 Spark Streaming容错机制
            10.3 Spark与Kafka实现Exactly once
            10.4 Spark Streaming vs. Storm vs. Kafka Stream
            10.5 Spark Streaming性能优化
            10.6 Structured Streaming

第十一课. Spark MLlib
            11.1 Pipeline
            11.2 特征工程
            11.3 模型选择
            11.4 调优

第十二课. Spark优化
            12.1 应用代码优化
            12.2 Spark统一内存模型
            12.3 基于YARN的参数优化
            12.4 其它优化项
授课讲师
Jason,就职某大型互联网公司,多年Kafka和Hadoop及Spark研究、应用及调优经验。现从事大数据平台(集群规模两万加)优化工作。
课程环境
Linux + Java 8 + Scala 2.11
授课对象

主要授课对象如下:


  • Java开发转大数据开发
  • 具有一定Hadoop或其它分布式应用基础,转Spark开发
  • 希望在Spark开发和原理上有所提升的大数据开发人员




收获预期

1. 掌握Spark核心原理,包括但不限于Spark Job的执行过程,Shuffle机制

2. 了解如何对Spark Job进行性能优化,包括但不限于参数调优,数据倾斜优化,应用代码调优

3. 掌握Spark Streaming的原理及使用方式,并掌握如何结合Spark StreamingKafka实现正好一次处理语义

4。 了解流式处理系统的常见问题和解决方案

5. 掌握Spark SQL的使用和优化方式

6. 了解SQL引擎的原理

课程学费
学费:400元(固定学费:300元 + 逆向学费:100元)
新颖的课程收费形式:“逆向收费”约等于免费学习,课程收取300元固定收费 + 100元逆向学费,学习圆满则全额奖励返还给学员!
特别说明如下
本门课程本来打算完全免费,某位大神曾经说过“成功就是正确的方向再加上适度的压力”。考虑到讲师本身要付出巨大的劳动,为了防止一些朋友在学习途中半途而废,浪费了讲师的付出,为此我们计划模仿某些健身课程,使用“逆向收费”的方法。 在 报名时每位报名者收取400元,其中300元为固定 收费,另外100元是暂存学费,即如果学员能完成全部课程要求,包括完成全部的书面作业,则100元全款退回。如果学员未能坚持到完全所有的学习计划任务,则会被扣款。期望这种方式可以转化为大家强烈的学习愿望和驱动力!
课程授课方式

1、 学习方式:老师发布教学资料、教材,幻灯片和视频,学员通过网络下载学习。同时通过论坛互动中老师对学员进行指导及学员之间相互交流。

2、 学习作业:每课均有布置课后作业,学员完成书面作业后则可进入下一课学习。

3、 老师辅导:通过论坛站内信及邮件等多种方式与老师进行一对一互动。

4、 完成课程:最后一课作业交纳后,老师完成作业批改,即可完成课程并取回相应剩余的逆向学费。

联系我们
咨询Email :edu01@fjdtg.cnedu02@fjdtg.cn
课程入门讨论咨询QQ群:706821899(群内有培训公开课视频供大家免费观看)
咨询QQ: 点击这里给我发消息 点击这里给我发消息
您是否对此课程还有疑问,那么请 点击进入FAQ,您的问题将基本得到解答
全国统一咨询热线: 4008-010-006
最新技术热点、 最新行业资讯,最新培训课程信息,尽在炼数成金官方微信,低成本传递高端知识!技术成就梦想!欢迎关注!
打开微信,使用扫一扫功能,即刻关注炼数成金官方微信账户,不容错过的精彩,期待您的体验!!!

授课老师

其他快班课程

【快班】【免费公开课】Python 的安装与部署
【快班】计算机视觉算法详解与实战开发
【快班】基于软件学习数据挖掘算法与案例
【快班】【免费公开课】《Hadoop入门手册》——CDH集群安装
【快班】Datastage基础及开发实践
【快班】OpenAI强化学习实战
【快班】JavaScript从入门到精通
【快班】赢在大数据-人工智能的应用实践
【快班】【免费公开课】《数据科学入门手册》——DSX架构与部署
【快班】【免费公开课】数据科学无难事
【快班】【免费公开课】《Hadoop入门手册》之 虚拟机的安装和使用
【快班】【免费公开课】玩转数据艺术-数据展示技巧应用实战
【快班】【免费公开课】玩转数据科学——IBM DSX
【快班】【免费公开课】《Hadoop入门手册》——Apache Hadoop集群安装
【快班】【免费公开课】赢在大数据-数据化运营落地实战
【快班】大数据管理
【快班】Streams流计算引航公开课
【快班】抽样调查
【快班】LATEX公式排版系统引航
【快班】Watson Analytics数据分析应用实战公开课
【快班】数据陷阱解读
【快班】R七种武器之文本挖掘包tm
【快班】R七种武器之可视化JS库HTMLWidgets包
【快班】R七种武器之数据加工厂plyr
【快班】R七种武器之交互化展示包shiny
【快班】R七种武器之网络爬虫RCurl
【快班】R七种武器之数据可视化包ggplot2
【快班】R七种武器之金融数据分析quantmod
【快班】Java经验谈
【快班】Go语言实战编程
【快班】DB2 V11新特性全解析
【快班】DB2数据库引航公开课
【快班】STATA统计分析入门
【快班】初识正则表达式
春节 幸运飞艇【快班】perl语言入门
【快班】Scala语言入门
【快班】Puppet 运维自动化
【快班】Qt编程快速入门
【快班】python web框架企业实战详解
【快班】数据治理及数据仓库模型设计
【快班】DevSecOps安全交付应用实战
春节 幸运飞艇【快班】JavaScript突击-从精通到项目实战
【快班】R语言魔鬼训练营
【快班】基于案例学习bash脚本编程
春节 幸运飞艇【快班】量化投资基础计算与模型
【快班】老板说服术之玩转数据展示
【快班】数据库系统实现技术内幕
【快班】Goldengate从入门到精通
【快班】Oracle 12c特性解读-容器数据库和灾备
【快班】Oracle 12C RAC集群原理与管理实战
【快班】Mycat从入门到精通
【快班】基于案例学SQL优化
【快班】大型电商分布式系统实践
【快班】深入理解Storm与大数据实战
【快班】Java魔鬼训练营
【快班】面试突击-数据结构与算法速成
【快班】Excel数据分析师突击—从入门到精通到项目实战
【快班】自己动手实践神经网络
【快班】自然语言处理软件实验
【快班】Redis技术实战
【快班】推荐系统
春节 幸运飞艇【快班】Zookeeper分布式系统开发实战
【快班】MongoDB实战
【快班】应用系统架构优化方法与案例实战
【快班】HBase从入门到精通
春节 幸运飞艇【快班】Hive数据仓库实践
【快班】Hadoop数据分析平台
【快班】数据分析与SAS
【快班】比特币
【快班】机器读心术之文本挖掘与自然语言处理
【快班】机器读心术之神经网络与深度学习
【快班】快速上手Jmeter性能测试工具
【快班】软件性能测试
【快班】软件自动化测试Selenium2
【快班】大数据必知的java基础
【快班】快速数据挖掘平台RapidMiner
【快班】R语言编程技巧
【快班】深入BI之Kettle篇
【快班】基于案例学Java服务器端程序设计
【快班】Scala从基础到开发实战
【快班】供应链物流—电商发展的“核”动力
【快班】详解SQL与PL/SQL
【快班】Oracle职业直通车
春节 幸运飞艇【快班】深度玩转Excel
【快班】Hadoop应用开发实战案例
【快班】大数据的Linux基础
【快班】机器学习
【快班】量化投资
【快班】SPSS数据分析入门与提高
【快班】Python数据分析
【快班】NoSQL与NewSQL数据库引航
【快班】大数据算法导论
【快班】大数据的矩阵计算基础
春节 幸运飞艇【快班】R语言数据分析、展现与实例
春节 幸运飞艇【快班】大数据的统计学基础

热招课程

◆ PL/SQL实战魔鬼训练营(第六期)
◆ 知识图谱实战(第九期)
◆ 软件架构必备基础(第九期)
◆ 黄金Quant工——量化金融分析师进阶(第二期)
◆ 目标检测模型YOLOV3原理及实战(第一期)
◆ 突击pyspark:数据挖掘的力量倍增器(第十期)
◆ Go语言实战编程(第六期)
◆ Oracle特殊恢复原理与实战(DSI系列)(第九期)
◆ Python自然语言分析(第14期)
◆ JavaScript从入门到精通(第八期)
◆ 深度学习框架Keras学习与应用(第11期)
◆ 区块链新时代:技术原理与实操(第五期)
◆ JAVA极客特训(第七期)
◆ 人脸识别90天速成特训班(第六期)
◆ MySQL性能优化最佳实践(第11期)
◆ 金融市场基础(第14期)
◆ Hadoop集群原理与运维实践(第九期)
春节 幸运飞艇◆ 测试架构师核心技术(第六期)
◆ 快速成为深度学习全栈工程师(第一期)
◆ 深度玩转Excel(第19期)
◆ 深入浅出设计模式(第七期)
◆ 人脸识别精准安防讲习班(第六期)
◆ Cloudera Hadoop管理认证实战(第一期)
◆ Oracle SQL Tuning(DSI系列Ⅲ)(第六期)
◆ 机器学习(第29期)
◆ 大话流式处理系统 Flink 核心原理(第三期)
春节 幸运飞艇◆ python网络爬虫应用实战(第九期)
◆ Web全栈开发理论与实践(第六期)
◆ Architecting on AWS架构与实践(第一期)
◆ 开启智慧眼-深度玩转计算机视觉与机器认知(第七期)
◆ 股票投资基础之技术分析(第九期)
◆ Python数据分析案例实战(第13期)
◆ 左飞的机器学习十八般算法武艺详解(第十期)
春节 幸运飞艇◆ MySQL高可用原理、架构与实战(第二期)
◆ Python3入门到精通实战特训(第八期)
◆ 黄金Quant工——量化金融分析师入门(第四期)
◆ 高并发高可用的亿级微服务电商平台全实现(第一期)
◆ Elastic Stack实战(第六期)
◆ 面试突击-数据结构与算法速成(第七期)
◆ 系统运维之基础服务进阶实战(第六期)
◆ 金融的人工智能革命(第12期)
◆ Python数据分析(第21期)
◆ locust性能测试实战(第五期)
◆ DL4CV实战——构建基于深度学习的智能图像识别系统(第八期)
◆ 【百万年薪系列】视觉的盛宴:深度玩转人脸识别(第八期)
◆ ROS机器人操作系统实战(第九期)
◆ OpenAI强化学习实战(第七期)
春节 幸运飞艇◆ Python机器学习Kaggle案例实战(第13期)
◆ 深入浅出Git(第十期)
◆ Spark企业级大数据项目实战(第11期)
◆ Tensorflow工程师职场实战技(第七期)
◆ 基于R的Kaggle实战案例详解(第九期)
◆ Qt编程快速入门(第八期)
◆ 端到端(End TO End)--由传统方法到深度学习(第三期)
◆ Python全栈学习——Python自动化测试(第五期)
◆ 股票投资高手武器系列之缠论系统(第七期)
◆ 让服务飞起来:实时计算及其应用(第十期)
◆ Java Web开发精讲(第六期)
◆ Python金融业数据化运营实战(第六期)
◆ Spark大数据平台应用实战(第十期)
◆ 【魔镜计划】真假脸识别(第一期)

GMT+8, 2019-11-13 06:03 , Processed in 0。148199 second(s), 34 queries 。

幸运飞艇刷水 幸运飞艇ios 幸运飞艇几点开 幸运飞艇公式 幸运飞艇叼一码 幸运飞艇预测群 幸运飞艇单双 幸运飞艇刷反 幸运飞艇规律图 幸运飞艇封盘