会议详情 |
推荐会议:2024PM产品力领航者大会
发票类型:增值税专用发票
参会凭证:邮件/短信发送参会通知 现场凭电话姓名参会
培训收益
通过此次课程培训,可使学习者获得如下收益:
1.深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势;
2.了解业界市场需求和国内外最新的大数据技术潮流,洞察大数据的潜在价值;
3.理解大数据项目解决方案及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考;
4.掌握业界最流行的Hadoop与Spark大数据技术体系;
5.掌握大数据采集技术;
6.掌握大数据分布式存储技术;
7.掌握NoSQL与NewSQL分布式数据库技术;
8.掌握大数据仓库与统计机器学习技术;
9.掌握大数据分析挖掘与商业智能(BI)技术;
10.掌握大数据离线处理技术;
11.掌握Storm流式大数据处理技术;
12.掌握基于内存计算的大数据实时处理技术;
13.掌握大数据管理技术的原理知识和应用实战;
14.深入理解大数据平台技术架构和使用场景;
15.娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求;
16.熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧。
培训特色
1.课程培训业界最流行、应用最广泛的Hadoop与Spark大数据技术体系。强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目应用开发与调优的全过程沙盘模拟实战。
2.通过一个完整的大数据开发项目及一组实际项目训练案例,完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习,重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本技术与业务素养。
3.本课程的授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师,采用原理技术剖析和实战案例相结合的方式开展互动教学、强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询,在学习的同时促进讲师学员之间的交流,让每个学员都能在课程培训过程中学到实实在在的大数据技术知识体系,以及大数据技术应用实战技能,具备实际大数据应用项目的动手开发实践与运维管理部署能力。授课过程中,根据学员需求,增设交流环节,可将具体工作中遇到的实际问题展开讨论,讲师会根据学员的实际情况微调授课内容,由讲师带着全部学员积极讨论,并给出一定的时间让学员上台发言,现场剖析问题的症结,规划出可行的解决方案。
火龙果软件工程技术中心是UML软件工程组织下属的一家软件工程综合技术服务公司,为软件行业提供技术研发、技术咨询、技术培训和产品支持服务 培训: 为软件行业提供开发过程中需要的各种专门性知识培训、技术培训,包括软件工程的各种理论知识(例如分析设计)、具体应用类型的理论知识(例如关系数据库),软件开发过程中的各种技术(例如J2EE应用环境)。客户包括:摩托罗拉中国电子有限公司、诺基亚中国技术中心、北大方正、清华同方、一汽大众、UT斯达康等等,客户对我们提供的优质服务给与了高度的赞誉。建立了良好的合作关系。为多家知名公司提供长期定制技术服务。同时和十多家国内著名培训机构有广泛的合作关系,为培训合作伙伴提供技术和师资的支持。
培训内容 | |
1. 大数据的产生背景与发展历程 2. 大数据的5V特征,以及与云计算的关系 3. 大数据应用需求以及潜在价值分析 4. 业界最新的大数据技术发展态势与应用趋势 5. 大数据与数据仓库 6. Google的三驾马车(三篇论文) l GFS分布式文件系统 l MapReduce计算模型 l BigTable大表 | |
1. 大数据生态系统全景图 2. 主流的大数据解决方案介绍 3. Apache大数据平台方案剖析 4. CDH大数据平台方案剖析 5. HDP大数据平台方案剖析 6. 大数据与云计算 7. 实验环境的准备 | |
1. 分布式文件系统HDFS产生背景与适用场景 2. HDFS master-slave系统架构与读写工作原理 3. HDFS核心组件技术讲解,NameNode与fsimage、editslog,DataNode与数据块 4. HDFS Federation机制与HDFS HA 5. HDFS参数调优与性能优化 | |
1. Hadoop 2.0的核心组件YARN工作原理 2. MapReduce产生背景与适用场景 3. MapReduce计算模型的基本原理 4. MapReduce作业执行流程 5. MapReduce编程模型: Map处理和Reduce处理 6. MapReduce处理流程 7. MapReduce开发高级应用: l Sort技术与应用场景 l Combiner技术与应用场景 l Partitioner技术与应用场景 | |
大数据ETL操作工具,与大数据分布式采集系统 | 1. Hadoop与DBMS之间数据交互工具的应用 2. Sqoop导入导出数据的工作原理 3. Flume-NG数据采集系统的数据流模型与系统架构 4. Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式 |
面向OLAP型应用的NoSQL数据库及数据仓库 | 1. 关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围 2. 列存储NoSQL数据库HBase简介与数据模型剖析 3. HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用 4. 数据仓库Hive的体系架构与安装配置 5. Hive的数据模型:内部表、外部表、分区表、桶表 |
内存计算引擎Spark Core | 1. Spark产生动机、基本概念与适用场景 2. Spark编程模型与RDD弹性分布式数据集的工作原理与机制 3. Spark实时处理平台运行架构与核心组件 4. Spark RDD主要Transformation:map, flatMap, filter, union, sample, join, reduceByKey, groupByKey 5. Spark RDD主要action:count,collect,reduce,saveAsTextFile 6. Spark宽、窄依赖关系与DAG图分析 7. Spark容错机制 8. Spark作业调度机制 9. Spark缓存机制:Cache操作,Persist操作与存储级别 10. 部署Spark standardalone和Spark on YARN |
Spark的数据分析引擎Spark SQL | 1. 基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景 2. Spark SQL实时数据仓库的实现原理与工作机制 3. SparkSQL数据模型DataFrame 4. SparkSQL程序开发与 5. SparkSQL数据读取与结果保存:json,Hive table,Parquet file,RDD 6. SparkSQL和Hive的区别与联系 7. SparkSQL操作实战 |
Spark的流式计算引擎Spark Streaming | 1. Storm关键技术与并发机制 2. Storm编程模型与基本开发模式 3. Storm数据流分组 4. Storm可靠性保证与Acker机制 5. Storm应用案例分析 6. 流数据处理工具Spark Streaming基本概念与数据模型 7. SparkStreaming工作机制 8. SparkStreaming程序开发介绍 9. SparkStreaming的全局统计和窗口函数 |
Flink的核心:Flink Runtime | 1. Flink简介 2. Flink的体系架构 3. Flink的安装与部署 l Standalone的模式 l Yarn模式的两种模式 l Yarn两种模式的区分 l Flink on yarn内部实现 l Flink HA的实现 l Flink UI界面介绍 4. Flink的分布式缓存 5. 对比:Flink、Storm和Spark Streaming |
Flink的DataSet API与DataStream API | 1. Map、FlatMap与MapPartition 2. Filter与Distinct 3. Join操作 4. 笛卡尔积 5. First-N 6. 外链接操作 7. DataSources 8. DataStream Transformation 转换操作 9. Data Sinks |
Flink的高级特性 | 1. 广播变量、累加器和计数器 2. 状态管理和恢复 3. Window和Time |
赵老师 清华大学计算机双学士,甲骨文(中国)软件系统有限公司高级技术顾问,大数据、数据库、中间件技术和Java专家。15年IT行业从业经历,10年培训授课经验。具有丰富的大数据方法论、数据科学、大数据生态圈技术知识和大数据规划建设、应用实施和客户培训经验。
普通票:5000元/人,多人参加可优惠 并赠送精美礼物(详情咨询客服微信:hdjzixun)
相关会议
2025-05-16上海
2025-08-22深圳