会议详情 菜单
2019Spark及Hadoop开发员培训(5月上海班)

2019Spark及Hadoop开发员培训(5月上海班)

2019-05-23 08:00 至 2019-05-26 18:00

上海  

上海碧茂信息科技有限公司   

报名截止

推荐会议:DAMS2024中国数据智能管理峰会(上海)

发票类型:增值税普通发票 增值税专用发票

-会议内容-

课程描述:
学习关键概念和掌握使用最新技术和工具将数据采集到Hadoop机群并进行处理。通过学习掌握诸如Spark、Hive、Flume、Sqoop 和Impala这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力。本课程包含了大量的实操及编程练习来帮助学员熟悉并掌握各种工具,并最终获得在实际工作中针对特定的问题或场景来选取最佳解决工具或技术的能力。


认证编号:

CCA175。


培训内容:
通过讲师在课堂上的讲解以及实操练习,学员将学习Apache Spark及如何将其集成到整个Hadoop 生态系统中去,包括以下内容:
> 数据是如何在Hadoop 机群里进行分布式存储及处理的。
> 如何使用Sqoop 和Flume 导入数据。
> 如何使用Apache Spark 处理分布式数据。
> 如何使用Impala 及Hive 将结构化数据建模成表并进行分析查询。
> 如何根据数据使用场景来确定最佳存储格式。
> 数据存储最佳实践。


培训对象及学员基础:
本课程适合准备报考CCA Spark 及Hadoop开发员认证考试的技术人员。虽然通过该认证考试,考生仍然需要做进一步的学习和准备,但是本课程涵盖了在该认证考试中考核的主题和知识点。
在参加完本培训后,我们建议学员参加此课程的一个后继课程:设计和创建大数据应用


客户评价:

“通过Cloudera的培训,让我们在使用大数据核心平台Hadoop方面信心百倍地面对未来和赢得更多的挑战。”
—— Persado

-主办方介绍-

上海碧茂信息科技有限公司 上海碧茂信息科技有限公司

上海碧茂信息科技有限公司,是中国科学院上海计算技术研究所孵化企业,全球顶级大数据科技公司Cloudera中国区合作伙伴,专业大数据解决方案服务商。 公司成立于2011年,肩负推进中国科学院上海计算技术研究所项目成果产业化的使命,致力于中国企业,尤其是金融、政府、电信等行业的数字化转型战略。总部位于上海,并在北京、广州、长沙等地设有分支机构,形成了覆盖全国的服务体系。2015年成为Cloudera合作伙伴,提供基于Cloudera CDH、Hortonworks HDP、华为FusionInsight、星环 TDH等大数据平台的一体化技术支持,包括集群搭建、架构梳理、数据迁移、计算监测、系统改造、应用开发、数据治理、技术培训。 代表项目:黑龙江移动Hadoop平台第三方维护、中信证券上交所运维、武汉大学大数据实验室建设等。 累计培训大数据企业上百家、工程师逾千人。包括中国人民银行、上海市公安系统、中国移动、思科、浪潮、中兴通讯、东方国信、上海大数据联盟等。

课程介绍

Hadoop及生态系统介绍
·Apache Hadoop概述
·数据存储和摄取
·数据处理
·数据分析和探索
·其他生态系统工具
练习环境及分析应用场景介绍
编写和运行Apache Spark应用
·Spark 应用对比Spark Shell
·创建 SparkContext
·创建 Spark应用(Scala和Java)
·运行Spark应用
·Spark应用WebUl
Apache Kafka
·什么是Apache Kafka
·Apache Kafka概述
·如何扩展 Apache Kafka
·Apache Kafka机群架构
·Apache Kafka命令行工具

Apache Hadoop文件存储
·传统大规模系统的问题
·HDFS体系结构
·使用HDFS
·Apache Hadoop文件格式

配置Apache Spark应用
·配置Spark属性
·运行日志

使用Apache Flume采集实时数据
·什么是Apache Flume
·Flume基本体系结构
·Flume源
·Flume槽
·Flume通道
·Flume配置
Apache Hadoop机群上的数据处理
·YARN体系结构
·使用YARN

Apache Spark的并行处理
·回顾:机群环境里的Spark
·RDD分区
·基于文件RDD的分区
·HDFS和本地化数据
·执行并行操作
·执行阶段及任务
集成Apache Flume和Apache Kafka
·概要
·应用案例
·配置
使用Apache Sqoop导入关系数据
·Sqoop简介
·数据导入
·导入的文件选项
·数据导出
Spark持久化
·RDD演变族谱
·RDD持久化简介
·分布式持久化
Apache Spark Streaming:DStreams介绍
·Apache Spark Streaming 概述
·例子:Streaming访问计数
·DStreams
·开发Streaming应用

Apache Spark基础
·什么是Apache Spark
·使用Spark Shell
·RDDs(可恢复的分布式数据集)
·Spark里的函数式编程

Apache Spark数据处理的常见模式
·常见Spark应用案例
·迭代式算法
·机器学习
·例子:K-Means

Apache Spark Streaming:批处理
·批处理操作
·时间分片
·状态操作
·滑动窗口操作
Spark RDD
·创建RDD
·其他一般性RDD操作

DataFrames和Spark SQL
·Apache Spark SQL 和SQL Context
·创建 DataFrames
·变更及查询DataFrames
·保存DataFrames
·DataFrames和RDD
·Spark sQL 对比Impala和Hive-on-Spark
·Spark 2.x版本上的Apache Spark SQL


Apache Spark Streaming:数据源
·Streaming 数据源概述
·Apache Flume 和Apache Kafka 数据源
·例子:使用Direct模式连接Kafka数据源
结论

使用键值对RDD
·键值对RDD
·MapReduce
·其他键值对RDD操作


-会议门票-

会务费:7360元/人,包含4天参会,住宿交通与餐饮自理。

会议标签:

Spark Hadoop 大数据

温馨提示
酒店与住宿: 异地参会客户请注意,为防止会议临时变动,建议您先与活动家客服确认参会信息,再安排出行与住宿事宜。
退款规则: 活动各项资源需提前采购,购票后不支持退款,可以换人参加。

相关会议

分享到

QQ好友 QQ空间 微博 ×