-会议内容-
课程简介
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。
目标收益
通过本课程实践,帮助学员对Hadoop、spark和NoSQL生态系统有一个清晰明了的认识;理解Hadoop、spark和NoSQL系统适用的场景;掌握Hadoop、spark和NoSQL等初中级应用开发技能;搭建稳定可靠的Hadoop、spark和NoSQL集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。
培训对象
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。
-主办方介绍-
麦思博(北京)软件技术有限公司(msup)
麦思博(msup)有限公司发源美国西雅图,2007年创办,是一家面向技术型组织的培训咨询机构,服务于技术团队的技能提升、软件工程的实际应用和产品品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重角色岗位的技能提升与职业发展,以及技术团队复合管理与协作。每年超过1000家企业续单参与msup旗下公开课、工作坊、案例研究、国际游学等培训项目。
课程大纲
大数据在国内的运用
|
1、大数据在国内的使用介绍
2、离线计算框架介绍
3、流式计算框架介绍
4、内存计算框架介绍
5、内存流式计算介绍
|
大数据的整体技术架构
|
1、开源大数据技术架构
2、开源大数据常用组件之间的依赖关系
3、离线计算框架介绍
—Mapreduce、Hive、Tez、Presto、Kylin
4、实时查询框架介绍
—NoSQL、Hbase
5、实时计算框架介绍
—Kafka、Strom、Spark Streaming
6、内存计算框架介绍
—Spark、SparkSQL、SparkMllib、SparkR
7、前沿大数据技术介绍
—Flink、Drill、Druid、KUDU等
8、海量日志快速检索架构
—ELK(Elasticsearch、Logstash、Kibana)等
|
Hadoop平台优化点
|
1、Linux系统的优化
2、最佳硬件的选择和建议
3、HDFS架构和原理
4、HDFS的优化、维护和经常出现的问题
5、MapReduce架构和原理
6、MapReduce的优化、维护和经常出现的问题
7、Yarn的内存、CPU和IO的优化
8、Hbase的优化和生产环境常见的问题
9、Hive的优化和Hive的改进工具介绍
10、Impala、Kylin、Presto工具介绍
11、RCFile、ORC和parquet格式介绍
|
Hadoop核心组件的运维和配置
|
1、HDFS的元数据管理
2、FSimage和Edit文件解析
3、手动修改FSimage和Edit文件
4、HDFS HA的架构运维解析
5、Yarn服务运维详解
6、Yarn核心配置参数的详解
7、Hbase服务运维详解
8、手动设置Split和Compaction操作
9、RS宕机的运维处理
10、Hbase 超大表的优化实践
|
Yarn实战
|
1、Yarn架构和原理
2、ResourceManager工作原理
3、NodeManager工作原理
4、ApplicationMaster工作原理
5、Yarn的资源控制机制
6、基于内存的控制设置
7、基于CPU的控制设置
8、基于IO的控制这是
9、Yarn为某个运用独立分配资
10、基于队列的资源管理配置
11、基于底层硬件的SLA资源配置
12、不同部门或者用户的资源配置
|
NoSQL和Hbase使用
|
1、NoSQL介绍
2、NoSQL应用场景
3、Hbase原理
4、Hmaster详解
5、RegionServer详解
6、Zookeeper介绍
7、Hbase安装
8、Hbase逻辑视图介绍
9、Hbase物理视图介绍
10、Hbase的二级索引介绍
11、Hbase 的DDL和DML
12、Hbase表的设计案例
13、Hbase的import功能介绍
14、MapReduce操作Hbase
15、Hbase的 thrift Server介绍
16、Hbase 的API介绍
17、Hbase使用场景介绍
18、Hbase案例分析
实战:
19、MapReduce操作Hbase实战
20、Hbase的API实战
21、Hbase表结构设计实战
22、银行信用卡刷卡记录的查询
|
Spark Streaming原理和实践
|
1、Spark Streaming原理
1.Spark流式处理架构
2.DStream的特点
3.Dstream的操作和RDD的区别
4.SatefulRDD和windowRDD实战
5.Kafka+Spark Steaming实战
6.Spark Streaming的优化
2、Kafka+Spark Streaming实例
-文本实例
3、网络数据处理
|
Spark SQL原理和实践
|
1、Spark SQL原理
1)Spark SQL的Catalyst优化器
2)Spark SQL内核
3)Spark SQL和Hive
2、DataFrame和DataSet架构
3、Fataframe、DataSet和Spark SQL的比较
4、SparkSQL parquet格式实战
5、Spark SQL的实例和编程
-Spark SQL的实例操作demo
6、Spark SQL的编程
|
Spark优化
|
1、Spark SQL的优化
2、基于Spark计算的文件格式选择
3、Spark on Yarn的优化
4、Spark SQL执行计划的优化
5、Spark 内存管理的机制
|
互联网大数据案例分享
|
1、金融大数据应用案例介绍
2、某银行基于大数据平台风险监控案例
3、某银行基于大数据数据湖的案例
4、SAP的HANA实时计算平台案例分析
|
Gavin.Liu
Teradata 云平台系统架构师
目前在Teradata担任GCA大数据架构师,曾经在阿里巴巴和高德,任职于大数据平台建设(Hadoop)。
1)编写并出版《Hadoop应用开发技术详解》图书,销售10000+册——机械工业出版社(2014-01)
2)专利《海量数据基于记录级别的容错》
-会议门票-
会务费:6800元/人,包含参会,住宿交通自理。
活动家提供2019 Hadoop、spark和NoSQL大数据实战(4月北京班)官网最新门票优惠(更新于:2019年03月22日)。2019 Hadoop、spark和NoSQL大数据实战(4月北京班)将于2019年04月20日在北京召开,优惠票在线报名截止2019年04月20日。一键查询2019 Hadoop、spark和NoSQL大数据实战(4月北京班)会议通知及邀请函下载,包含开会时间地点、嘉宾演讲主题、日程、价格等会议信息,报名2019 Hadoop、spark和NoSQL大数据实战(4月北京班),轻松快捷。