会议详情 菜单
刘刚培训公开课:Hadoop与Spark大数据架构专题(2018年1月 北京站)

刘刚培训公开课:Hadoop与Spark大数据架构专题(2018年1月 北京站)

2018-01-27 08:00 至 2018-01-28 18:00

北京  

麦思博软件技术有限公司   

立即咨询

-课程信息-

培训特色

当下是大数据时代,为构建大数据平台,需要对分布式数据收集,大数据存储,分布式计算,资源管理等系统有全面而又深入的理解。众所周知,大数据源自于互联网行业,目前互联网公司已有一套完善的大数据平台建设方案,大部分选用开源的Hadoop和Spark两大生态系统,本课程正是以这两套系统为主介绍大数据平台及架构的构建策略及经验。

目标收益

本课程将为大家全面而又深入的介绍大数据平台的构建流程,涉及分布式数据收集,大数据存储,资源管理及分布式计算框架等。本课程重点以Hadoop和Spark两大生态系统作为基准进行介绍,涉及Flume,HDFS,Hbase,YARN,MapReduce,Hive,Zookeeper,Spark,Storm,SparkStreaming等主流的大数据开源系统架构及应用经验。

培训对象

各类IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

学员基础

了解Java语言、Linux系统;

课程时长

2天

-主办方介绍-

麦思博软件技术有限公司 麦思博软件技术有限公司

麦思博(msup)有限公司发源美国西雅图,2007年创办,是一家面向技术型组织的培训咨询机构,服务于技术团队的技能提升、软件工程的实际应用和产品品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重角色岗位的技能提升与职业发展,以及技术团队复合管理与协作。每年超过1000家企业续单参与msup旗下公开课、工作坊、案例研究、国际游学等培训项目。

主题

内容

大数据架构概述

1.1大数据层级架构及各层软件设计要求,包括数据收集、存储、计算框、应用
1.2 Hadoop生态系统概述以及版本演化,并给出版本选择建议。
1.3 Spark生态系统概述及其特点,并与Hadoop对比

数据收集系统Flume与Sqoop

2.1使用flume和sqoop两个系统将外部流式数据(比如网站日志,用户行为数据等)、关系型数据库(比如MySQL、Oracle等)中的数据导入Hadoop中进行分析和挖掘

大数据存储系统HDFS与HBase

3.1 与HDFS1.0进行对比介绍2.0原理、特性与基本架构(快照、缓存、异构存储)。
3.2 HBase原理,基本架构与案例分析
3.3 HBase应用场景、原理和架构,典型应用案例(互联网、银行)

集群资源管理与调度系统

4.1 介绍YARN应用场景、基本架构与资源调度

Zookeeper部署及典型应用

5.1 介绍Zookeeper是什么,基本原理及在应用

大数据计算平台

介绍主流的三大类大数据计算框架,分别是批处理、交互式计算和流式计算框架,并选取当下主流的开源实现进行介绍。
6.1 批处理计算框架
6.1.1 MapReduce2.0基本原理与架构、程序编写(使用java、C++、php语言)
6.1.2 数据分析系统Hive与Pig应用与比较,如何使用其中的海量数据
6.1.3 Spark计算框架,背景及应用案例
6.2 交互式计算框架,Impala和presto应用场景,基本架构和典型应用案例
6.3 流式/实时计算框架,storm、SparkStreaming基本架构特点,及应用案例

数据挖掘与机器学习库

7.1 Mahout与MLlib两个主流的分布式数据挖掘与机器学习库的实现以及应用案例。

刘刚培训公开课:Hadoop与Spark大数据架构专题(2018年1月 北京站)

Gavin.Liu 刘刚

Teradata

云平台系统架构师

毕业于大连理工大学,本科,有多年大数据分析类大型项目的架构实施经验,目前任职TD,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata,实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验,了解大数据在互联网的使用场景。

1)编写并出版《Hadoop应用开发技术详解》图书,销售10000+册——机械工业出版社(2014-01)

2)专利《海量数据基于记录级别的容错》

3)在infoQ和CSDN等技术论坛都有采访和发表过文章

4)2015 China hadoop summit 的特约演讲嘉宾

专业技能:

1)能熟练的运用Linux系统开发和shell编程,

2)精通java、熟悉python、R语言

3)熟悉struts、spring、hibernate开发

4)熟练运用mysql、oracle等关系型数据库,Cassendra、mongoDB、Redis等NoSql数据库

7)熟练运用flumeNG、scribe等日志收集工具

8)熟练运用ganglia和Nagios、openTSDB对hadoop集群进行监控

9)熟练运用storm、spark 分布式计算模型,spark Streaming、Mllib和graphx

10)精通MR的编程、Mahout、hbase、Oozie、Kafka、Impala、Tez、hive等应用

11)精通hadoop平台的搭建、优化、监控和其生态系统组件的使用。

12)熟悉openstack和docker虚拟化技术

认证:

国考——软件设计师(中级)—2009年

近期案例:

兰州银行,大数据平台,架构师,2014年

内蒙移动,大数据平台试点(Hadoop),架构师,2014年

远传电信(台湾),Hadoop平台优化解决方案和实施,架构师,2014年

招商银行大数据咨询项目规划和设施,架构师 2015年

交通银行大数据平台规划和设施,架构师 2015年

高德软件,高德集团大数据中心的建设、从15个Hadoop节点经过5次的扩容到300+节点,机房换了两个,负责Hadoop平台的开发、优化、运维和给兄弟部门提供服务等,Hadoop部门经理,2011.03 -2013.01年

阿里巴巴大数据高级架构师,负责OPDS平台架构、开发和运维 2013-2014.04年

-课程费用-

课程费用:5800元/人

会议标签:

大数据 架构 Spark Hadoop

相关会议

分享到

QQ好友 QQ空间 微博 ×