位置导航 >> 返回首页 >>Spark培训
Spark培训课程
         
Spark培训课程
Spark实战培训课程
  • 脱产班
  • 周末班
课程名称 上课形式 优惠价 索取资料 开课时间
Spark实战培训 脱产班 ¥9000 索取 详细内容
大数据Spark企业级项目实战课程
  • 脱产班
  • 周末班
课程名称 上课形式 优惠价 索取资料 开课时间
大数据Spark企业级项目实战 脱产班 ¥9000 索取 详细内容
Cloudera Apache Spark程序员课程
  • 脱产班
  • 周末班
课程名称 上课形式 优惠价 索取资料 开课时间
Cloudera Apache Spark程序员 脱产班 ¥9000 索取 详细内容
考试认证:
 

1Spark介绍

SparkUC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

Spark Streaming:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟执行引擎(100ms+),虽然比不上专门的流式数据处理软件,也可以用于实时计算,另一方面相比基于Record的其它处理框架(如Storm),一部分窄依赖的RDD数据集可以从源数据重新计算达到容错处理目的。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。

2Cloudera Apache Spark认证

考试代码

考试名称

认证名称

CCA-175

CCA Spark and Hadoop Developer Exam

CCA

技能要求:

Data Ingest数据消化

在外部系统和集群之间转移数据的技能,包括以下几个:

使用sqoop将数据从mysql导入HDFS

使用sqoop将数据从HDFS导入mysql

使用sqoop导入的时候改变数据的分隔符和文件格式

使用Flume处理实时和接近实时的流数据导入到HDFS

使用HDFS hadoop FIle System命令导入导出数据

Transform, Stage, Store转化,筹划,存储

将给定的HDFS上的一套数据值转化成为一套新的数据值和数据格式,并且写入到HDFS中。这包括使用ScalaPython编写Spark程序

使用SparkHDFS中加载数据,并且将运算结果写回到HDFS

使用Spark合并不同的数据集

使用Spark计算汇总统计数据

使用Spqrk过滤数据得到更小的数据集

使用Spqrk编写查询得到排名或者排序的数据

Data Analysis数据分析

使用DDL(数据定义语言)Hive元数据库中创建表便于hiveimpala使用

使用指定的模式在Hive metastore中读取或者创建一个表

使用avro工具从一套数据文件中提取Avro schema

使用Avro 文件格式和一个外部schema   文件在hive metastore中创建一个表

hive metastore中创建分区来提升查询的效率

改变JSON文件升级Avro schema

认证准备建议:Spark and Hadoop开发者培训(Cloudera Apache Spark程序员培训)

考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题

 

证书介绍:
 

考试费用:295美元

考试时间:2小时

 

报名须知:
报名须知 1、开课前20天提交培训需求至shenqh@cherpservice.com
我们收到您的培训需求发送课程介绍及教学纲要
2、课前15天提交培训报名申请表并完成付费流程
3、以收到汇款凭证为准,在上课前10天发放上课通知、邮寄发票
4、开课前5天培训前准备工作
5、课程咨询可拨打免费电话400 6898 072-或在线留言发送电子邮件shenqh@cherpservice.com 登陆QQ 1480825338联系我们 6上课时间:上午9:00---12:00 下午1:00——4:00
索取课程资料