会议详情 菜单
Cloudera 数据分析师培训班

Cloudera 数据分析师培训班

2017-06-13 08:00 至 2017-06-16 18:00

重庆   重庆渝北区仙桃数据谷

重庆翰海睿智大数据科技有限公司   

30人

报名截止

推荐会议:DAMS2024中国数据智能管理峰会(上海)

发票类型:增值税普通发票 增值税专用发票

-会议内容-

重庆 Cloudera 授权大数据培训基地Cloudera 数据分析师培训班开班通知

为发展大数据行业和提高各企事业单位员工的技术,现定于6月13---16日在重庆渝北区仙桃数据谷进行Cloudera 数据分析师培训,届时将邀请您到现场进行大数据行业的学习和交流。


课程简介

Cloudera 大学提供的为期四天的数据分析培训课程专注于Apache Pig、 Hive 和Cloudera Impala,将教会您如何将传统的数据分析和商业智能技术应 用到大数据领域。Cloudera 为数据专业人员提供了基于SQL 和其它熟悉的脚 本编程语言的工具,用来访问、操作、转换和分析复杂数据集。


证书介绍

      CCA数据分析师

      CCA数据分析师需具备在基于Cloudera  CDH部署的大数据平台上使用Hive和Impala 进行分析并产生报告的技能。结束本课程培训后,我们建议学员准备并注册参加Cloudera CCA 数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。


培训地点

重庆渝北区仙桃数据谷(数据谷东路19号)

-主办方介绍-

重庆翰海睿智大数据科技有限公司 重庆翰海睿智大数据科技有限公司

重庆翰海海睿智大数据科技有限公司成立于 2016 年。公司是重 庆市经信委、重庆市北区人民政府与美国 Cloudera 于 2016 年底 签署的 MOU 合作项目的执行单位。 公司由多名国际大数据行业技术专家和 IT 教育行业运营专家组成,核 心团队成员均在大数据领域和 IT 教育领域具备超过 10 年年的运营经验。 位于位于重庆渝北区的仙桃国际数据谷,整体面积超过 3000 平米, 分为培训场地、实训场地、办公区域及服务设施等部分,并享受园区提供的 配套设施。 是国内首家 Cloudera 授权大数据培训基地 ,全国唯一 Cloudera 教育行业推广运营中心!

   时间

课程安排

6月13日08:00

签到

6月13日08:30-11:30

Hadoop 基础知识

· Hadoop 动机

· Hadoop 概览

· 数据存储:HDFS

· 分布式数据处理:YARN、MapReduce和Spark

· 数据处理与分析:Pig、Hive 和Impala

· 数据集成:Sqoop

· 其它的Hadoop 数据工具

· 练习分析场景说明

Pig 简介

· Pig 是什么?

· Pig 的特点

· Pig 使用案例

· 与Pig 的交互

6月13日13:00-17:30

Pig 基本数据分析

· PigLatin 语法

· 加载数据

· 简单数据类型

· 字段定义

· 数据输出

· 架构查看

· 数据筛选和排序

· 常用函数

使用Pig 处理复杂的数据

· 数据存储格式

· 复合/ 嵌套数据类型

· 数据分组

· 复杂数据内置函数

· 遍历分组数据


6月14日08:30-11:30

Pig 多数据集操作

· 数据集合并技术

· 在Pig 中联接数据集

· 集合运算

· 拆分数据集

Pig 故障诊断和性能优化

· Pig 故障排除

· 日志

· 使用Hadoop 的Web UI

· 数据采样及调试

· 性能概述

· 了解执行计划

· 提高Pig 作业性能的技巧

6月14日13:00-17:30

Hive 和Impala 简介

· 什么是Hive ?

· 什么是Impala ?

· 为什么使用Hive 和Impala

· 架构和数据存储

· Hive 及Impala 与传统数据库的比较

· Hive 使用案例

使用Hive 和Impala 进行数据查询

· 数据库和表

· 基本的Hive 和Impala 查询语言语法

· 数据类型

· 使用Hue 来执行查询

· 使用Beeline(Hive Shell)

· 使用Impala Shell

6月15日08:30-11:30

Hive 及Impala 数据管理

· 数据存储

· 创建数据库和表

· 加载数据

· 修改数据库和表

· 使用视图简化查询

· 存储查询结果

数据存储和性能

· 对表进行分区

· 分区表的数据加载

· 何时使用分区

· 文件格式的选取

· 使用Avro 及Parquet 文件格式

6月15日13:00-17:30

使用Hive 和 Impala 进行关系数据分析

· 连接数据集

· 常见的内置函数

· 聚合和窗口函数

复杂数据类型

· 在Hive 里使用复杂数据

· 在Impala 里使用复杂数据

6月16日08:30-11:30

使用Hive 及Impala 分析文本数据

· 在Hive 及Impala 里使用正则表达式

· 在Hive 里通过SerDe 加载处理文本

· 情感分析及n-gram

Hive 优化

· 了解查询性能

· Bucketing(分桶)

· 索引数据

· Hive on Spark

Impala 优化

· Impala 如何执行查询

· 改善Impala 性能

6月16日13:00-17:30

扩展Hive 及Impala

· 使用SerDe 加载特殊格式文件

· 通过定制脚本来转换数据

· 用户自定义函数

· 参数化查询

选择最佳工具

· 比较Pig、Hive、Impala 和关系数据库

· 该选择哪一个?


课程大纲:Cloudera 数据分析师培训

Hadoop 基础知识

· Hadoop 动机

· Hadoop 概览

· 数据存储:HDFS

· 分布式数据处理:YARN、MapReduce 和Spark

· 数据处理与分析:Pig、Hive 和Impala

· 数据集成:Sqoop

· 其它的Hadoop 数据工具

· 练习分析场景说明

Pig 简介

· Pig 是什么?

· Pig 的特点

· Pig 使用案例

· 与Pig 的交互

Pig 基本数据分析

· PigLatin 语法

· 加载数据

· 简单数据类型

· 字段定义

· 数据输出

· 架构查看

· 数据筛选和排序

· 常用函数

使用Pig 处理复杂的数据

· 数据存储格式

· 复合/ 嵌套数据类型

· 数据分组

· 复杂数据内置函数

· 遍历分组数据

Pig 多数据集操作

· 数据集合并技术

· 在Pig中联接数据集

· 集合运算

· 拆分数据集

Pig 故障诊断和性能优化

· Pig 故障排除

· 日志

· 使用Hadoop 的Web UI

· 数据采样及调试

· 性能概述

· 了解执行计划

· 提高Pig 作业性能的技巧

Hive 和Impala 简介

· 什么是Hive ?

· 什么是Impala ?

· 为什么使用Hive和Impala

· 架构和数据存储

· Hive及Impala 与传统数据库的比较

· Hive 使用案例

使用Hive 和Impala 进行数据查询

· 数据库和表

· 基本的Hive 和Impala 查询语言语法

· 数据类型

· 使用Hue 来执行查询

· 使用Beeline(Hive Shell)

· 使用Impala Shell

Hive及Impala数据管理

· 数据存储

· 创建数据库和表

· 加载数据

· 修改数据库和表

· 使用视图简化查询

· 存储查询结果

数据存储和性能

· 对表进行分区

· 分区表的数据加载

· 何时使用分区

· 文件格式的选取

· 使用Avro及Parquet文件格式

使用Hive 和 Impala 进行关系数据分析

· 连接数据集

· 常见的内置函数

· 聚合和窗口函数

复杂数据类型

· 在Hive里使用复杂数据

· 在Impala里使用复杂数据

使用Hive及Impala分析文本数据

· 在Hive及Impala里使用正则表达式

· 在Hive里通过SerDe加载处理文本

· 情感分析及n-gram

Hive 优化

· 了解查询性能

· Bucketing(分桶)

· 索引数据

· Hive on Spark

Impala优化

· Impala如何执行查询

· 改善Impala性能

扩展Hive及Impala

· 使用SerDe加载特殊格式文件

· 通过定制脚本来转换数据

· 用户自定义函数

· 参数化查询

选择最佳工具

· 比较Pig、Hive、Impala 和关系数据库

· 该选择哪一个?

总结

中国科学院情报分析与知识产品研发中心副主任韩涛

韩涛

中国科学院情报分析与知识产品研发中心

副主任

-会议门票-

课程培训班学费:12000元(含:课程费 9200 元,认证考试费 2800 元)

课程费含培训费、教材费、午餐(数据谷)、实验费、交通费、住宿费自理(推荐数据谷窝趣单间、双人间)

-场馆介绍-

重庆渝北区仙桃数据谷 重庆渝北区仙桃数据谷

重庆仙桃数据谷,“美国有苹果,中国有仙桃”,2014年3月17日,重庆市政府第40次常务会研究,决定规划建设仙桃大数据产业园。主要布局大数据、云计算和跨境电子商务等新兴产业,致力于积聚大数据全产业链,包括数据感知、存储、挖掘分析及应用等,建成后将解决已签约龙头企业的落地和发展问题,促进大数据和跨境电子商务平台集中布局、集约化发展。同时通过集中布局,吸引基于大数据业务的风投、私募基金和物流企业扎堆发展,形成产业集聚和辐射效应。2014年4月,重庆仙桃数据谷正式启动规划建设,项目选址于重庆市渝北区双龙湖街道仙桃村,规划范围总面积为2674亩,项目实际总占地为1346亩(环路外边线围合范围面积),谷内总建设用地面积为1267亩。其中,市政设施及绿化用地为306亩,房屋建筑用地为961亩其中,市政设施及绿化用地为306亩,房屋建筑用地为961亩。分为商务楼宇产业区和租赁式公寓等配套生活区,其中产业办公楼宇约81万平方米,酒店、公寓等配套建筑约39万平方米,规划常住人口2万人,注册企业10万家(含虚拟注册),引进龙头企业50家、核心企业300家。

会议标签:

大数据 Cloudera Hadoop

温馨提示
酒店与住宿: 异地参会客户请注意,为防止会议临时变动,建议您先与活动家客服确认参会信息,再安排出行与住宿事宜。
退款规则: 活动各项资源需提前采购,购票后不支持退款,可以换人参加。

相关会议

分享到

QQ好友 QQ空间 微博 ×