位置导航 >> 返回首页 >>Spark培训>> 大数据Spark企业级项目实战培训
大数据Spark企业级项目实战培训课程
         
大数据Spark企业级项目实战培训课程
课程名称 课时 上课形式 优惠价 索取资料  
大数据Spark企业级项目实战 6天 脱产班 ¥9000 索取 详细内容
大数据Spark企业级项目实战 6天 周末班 ¥9000 索取 详细内容
考试认证:
 

1Spark介绍

SparkUC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

2Cloudera Apache Spark认证

考试代码

考试名称

认证名称

CCA-175

CCA Spark and Hadoop Developer Exam

CCA

技能要求:

Data Ingest数据消化

在外部系统和集群之间转移数据的技能,包括以下几个:

使用sqoop将数据从mysql导入HDFS

使用sqoop将数据从HDFS导入mysql

使用sqoop导入的时候改变数据的分隔符和文件格式

使用Flume处理实时和接近实时的流数据导入到HDFS

使用HDFS hadoop FIle System命令导入导出数据

Transform, Stage, Store转化,筹划,存储

将给定的HDFS上的一套数据值转化成为一套新的数据值和数据格式,并且写入到HDFS中。这包括使用ScalaPython编写Spark程序

使用SparkHDFS中加载数据,并且将运算结果写回到HDFS

使用Spark合并不同的数据集

使用Spark计算汇总统计数据

使用Spqrk过滤数据得到更小的数据集

使用Spqrk编写查询得到排名或者排序的数据

Data Analysis数据分析

使用DDL(数据定义语言)Hive元数据库中创建表便于hiveimpala使用

使用指定的模式在Hive metastore中读取或者创建一个表

使用avro工具从一套数据文件中提取Avro schema

使用Avro 文件格式和一个外部schema   文件在hive metastore中创建一个表

hive metastore中创建分区来提升查询的效率

改变JSON文件升级Avro schema

认证准备建议:Spark and Hadoop开发者培训(Cloudera Apache Spark程序员培训)

考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题

 

证书介绍:
 

考试费用:295美元

考试时间:2小时

 

大数据Spark企业级项目实战项目介绍
 

Apache Spark以内存计算为核心,以其通用,快速和完整的生态圈等特点,正在逐步取代速度较慢的hadoop,越来越多的应用在了企业中。ADHOC SQL查询,流计算,数据挖掘,图计算,R语言,一个又一个功能强大的组件使得越来越多的Spark爱好者和企业界意识到,只要掌握一门Spark技术,就能够为大多数的企业遇到的大数据的应用场景提供明显的加速。

学习Spark,成为一名合格的Spark工程师,使得每个致力于大数据行业的人,不仅能得到技术上的提升,也为个人的薪资带来了巨大的提升空间。

本课程大数据Spark企业级项目实战,将从最基础的Spark介绍开始,介绍Spark的各种部署模式以及动手进行搭建,然后逐步介绍其中RDD的计算模型,创建和常用的操作,以及其中一些分布式计算,RDD持久化,容错,shuffle机制,共享变量等内容。

而后在RDD的基础上,讲解SparkSQL的子框架,介绍dataframe,使用场景,创建方法,对parquet等文件格式和不同类型的数据源的支持,对hive的兼容和整合,以及对传统数据库的JDBC的支持,和thriftserver的部署等。再配合一些实战动手的实验来加深对dataframe的理解和应用。

讲解Sparkstreaming的子框架,介绍DSTREAM的概念,使用场景,数据源,操作,容错,性能调优,还有与kafka的集成。

最后以2个项目来实际带学习者到开发环境中去动手开发,调试,一些基于SparkSQLSparkStreamingkafka的实战项目,加深大家对Spark应用开发的理解。其中简化了企业里的实际业务逻辑,加强对错误调试的分析和思路上的启发,使得学习者更容易掌握Spark的开发技巧。

大数据Spark企业级项目实战就业前景
 

授课对象

    想要学习Spark的学员,业务主管,IT高管,架构师,研发经理,软件工程师等。

预备知识

    Linux基础知识,无需 Hadoop 经验。

培训目标

l         了解Spark简介

l         Spark部署模式

l         Spark集群硬件,开发语言和java版本的选择

l         Sparkrdd及其操作

l         了解SparkSQLDataFrame

l         了解SparkStreamingDStream

l         SparkStreaming性能调优,容错和Kafka集成

l         SparkSQL项目实战之文本比对

l         SparkStreaming+SparkSQL+Kafka项目实战开发

大数据Spark企业级项目实战培训大纲
l         Spark简介

Spark介绍

Spark与hadoop的比较

Spark的使用场景介绍

Spark软件栈

动手搭建一个最简单的Spark集群

运行例子程序SparkPi

l         Spark部署模式介绍

Spark部署模式OverView

Spark启动过程详解

Spark集群部署之Standalone

Spark集群部署之Spark on Yarn

Spark集群部署之Spark on Mesos

l         Spark集群硬件,开发语言和java版本的选择

Spark集群硬件配置

Spark开发的语言选择

Java版本的选择

l         Sparkrdd及其操作介绍

RDD介绍及创建

RDD的操作

RDD函数传递

闭包

shuffle介绍

RDD的持久化

共享变量

常用transformationactionAPI介绍

Spark-shell里动手实战wordcount及常用API

Scala介绍

l         SparkSQLDataFrame讲解

SparkSQL简介

SparkSQLDataframeSave&Load

SparkSQLDataframe介绍及创建

SparkSQLDataframeParquet

SparkSQLDataframeJson&HiveTables

SparkSQLDataframeJDBC&PerformanceTuning&Cli&ThriftServer

l         SparkStreamingDStream介绍

SparkStreamingdemo和介绍

DStreamDataSource

DStreamTransformationoutput

DStream持久化,checkpoint,以及和DataFrame交互

SparkStreaming应用的部署和监控

l         SparkStreaming性能调优,容错和Kafka集成

SparkStreaming的性能调优

SparkStreaming的容错

SparkStreamingKafka的集成

l         SparkSQL项目实战之文本比对

开发SparkSQL应用的雏形和定义dataframe

数据清洗

业务逻辑的实现和保存数据处理结果

开发SparkSQL应用调度程序,实现多文本并行

SparkSQL应用的参数化,提高可配置性

SparkSQL应用部署到集群中,调试

编写简单的shell脚本,调试及查阅JIRA

集群和SparkSQL应用参数的调整

SparkSQL应用schedular模式介绍和性能调优

l         SparkStreaming+SparkSQL+Kafka项目实战开发

kafka实战

多组件部署模式的设计与思考

SparkStreaming+kafka应用运行日志的分析

开发基于direct模式的SparkStreaming应用

SparkStreaming应用的参数设置

SparkStreaming应用部署调试

SparkStreamingSparkSQL结合

Kafka集群升级与connect的探索

开发自定义的Kafka producer,完成整个应用

课时:6天

费用:9000元

授课形式:脱产班

报名须知:
报名须知 1、开课前20天提交培训需求至shenqh@fu-he.com
我们收到您的培训需求发送课程介绍及教学纲要
2、课前15天提交培训报名申请表并完成付费流程
3、以收到汇款凭证为准,在上课前10天发放上课通知、邮寄发票
4、开课前5天培训前准备工作
5、课程咨询可拨打免费电话400 6898 072-或在线留言发送电子邮件shenqh@fu-he.com 登陆QQ 1480825338联系我们 6上课时间:上午9:00---12:00 下午1:00——4:00
索取课程资料