会议详情 |
一、课程简介
大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。
本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解数据准备、数据建模、挖掘模型建立、大数据分析与挖掘算法应用在业务模型中,结合主流的Hadoop与Spark大数据分析平台架构,实现项目训练。
结合业界使用最广泛的主流大数据平台技术,重点剖析基于大数据分析算法与BI技术应用,包括分类算法、聚类算法、预测分析算法、推荐分析模型等在业务中的实践应用,并根据讲师给定的数据集,实现两个基本的日志数据分析挖掘系统,以及电商(或内容)推荐系统引擎。
本课程基本的实践环境是Linux集群,JDK1.8, Hadoop 2.7.*,Spark 2.1.*。
学员需要准备的电脑最好是i7三代及以上CPU,8GB及以上内存,硬盘空间预留50GB(可用移动硬盘),基本的大数据分析平台所依赖的软件包和依赖库等,讲师已经提前部署在虚拟机镜像(VMware镜像),学员根据讲师的操作任务进行实践。
本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
二、培训时间及地点
2018年06月02日---06月06日 成都(02日全天报到)
三、培训目标
1.本课程让学员充分掌握大数据平台技术架构、大数据分析的基本理论、机器学习的常用算法、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。
2.本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop、spark大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。。
3.让学员掌握常见的机器学习算法,深入讲解业界成熟的大数据分析挖掘与BI平台的实践应用,并以客户分析系统、日志分析和电商推荐系统为案例,串联常用的数据挖掘技术进行应用教学。
四、培训人群
1.大数据分析应用开发工程师
2.大数据分析项目的规划咨询管理人员
3.大数据分析项目的IT项目高管人员
4.大数据分析与挖掘处理算法应用工程师
5.大数据分析集群运维工程师
6.大数据分析项目的售前和售后技术支持服务人员
五、培训特色
定制授课+ 实战案例训练+ 互动咨询讨论,共3天
(说明:讲师会提供虚拟机镜像,并把Hadoop,Spark等系统提前部署在虚拟机中,分析挖掘平台构建在Hadoop与Spark之上,学员自带笔记本,运行虚拟机,并利用同样的镜像启动多台虚拟机,构建实验集群,镜像会提前给学员)
六、颁发证书
参加相关培训并通过考试的学员,可以获得:
1.工业和信息化部全国网络与信息技术考试管理中心中心颁发的-大数据挖掘高级工程师职业技能证书(等级高级)。该证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
注:请学员带二寸彩照2张(背面注明姓名)、身份证复印件一张。
中科软培主要从事IT方向的前沿技术培训,本着为用户创造真正价值,围绕以用户为中心的价值观不断探索,在机器学习,深度学习,大数据、R语言、虚拟现实、增强现实等领域形成了完善的课程体系。学以致用,全部课程均已实战为主,采用理论与实战相结合的方式,实用的课程设计、精心施教的专家团队、严格的教学把关、细心周到的后期咨询,赢得众多客户的好评。
课程模块 | 内容提要 | 授课详细内容 |
模块一 | Spark ML基础入门 | 1.1 Spark介绍 1.2 Spark ML介绍 1.3 课程的基础环境 1.4 Spark SparkSession 1.5 Spark Datasets操作 1.6 Datasets操作的代码实操 |
模块二 | Spark ML Pipelines(ML管道) | 2.1 Pipelines的主要概念 2.2 Pipelines实例讲解 2.3 ML操作的代码实操 2.4 使用 ML Pipeline 构建机器学习工作流案例展示 2.5 实例的代码实操声 |
模块三 | Spark ML数学基础 | 3.1 ML矩阵向量计算 3.2 分类效果评估指标及ML实现详解 3.3 交叉-验证方法及ML实现详解 3.4 实例的代码实操 3.5 特征的提取及ML实现详解 3.6特征的转换及ML实现详解 3.7 特征的选择及ML实现详解 3.8 实例的代码实操 |
模块四 | Spark ML特征的提取、转换和选择 | 4.1 线性回归算法 4.2 逻辑回归算法 4.3 ML回归算法参数详解 4.4 ML实例 4.5 实例的代码实操 |
模块五 | Spark ML线性回归/逻辑回归算法 | 5.1 决策树算法 5.2 随机森林算法 5.3 GDBT算法 5.4 ML树模型参数详解 5.5 ML实例 5.6 实例的代码实操 |
模块六 | Spark ML决策树/随机森林/GBDT算法 | 6.1 KMeans聚类算法 6.2 ML KMeans模型参数详解 6.3 ML实例 6.4 实例的代码实操 |
模块七 | Spark ML KMeans聚类算法 | 7.1 LDA主题聚类算法 7.2 ML LDA主题聚类模型参数详解 7.3 ML实例 7.4 实例的代码实操 |
模块八 | Spark ML LDA主题聚类算法 | 8.1 协同过滤推荐算法 8.2 ML协同过滤分布式实现逻辑 8.3 ML协同过滤源码开发 8.4 实现实例 8.5 实例的代码实操 |
模块九 | Spark ML协同过滤推荐算法 | 9.1 案例背景 9.2 架构设计 9.3 数据准备 9.4 模型训练 9.5 模型预测 9.6 脚本封装 |
模块十 | 项目实践 | 大型案例:基于Spark的推荐模型开发 |
模块十一 | 培训总结 | 项目方案的课堂讨论,讨论实际业务中的分析需求,剖析各个环节的难点、痛点、瓶颈,启发出解决之道;完成讲师布置的项目案例,巩固学过的大数据分析挖掘处理平台技术知识以及应用技能 |
师资力量
张老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。
钟老师:博士毕业于中国科学院,获工学博士学位(计算机系统结构方向),曾在国内某高校和某大型通信企业工作过,目前在中国科学院某研究所工作,高级工程师,副研究员,课题组长,团队成员二十余人。大数据、云计算系列课程建设与教学专家,新技术课程开发组长。近八年来带领团队主要从事大数据管理与高性能分析处理(Hadoop、Spark、Storm)、大数据仓库(HIVE)和实时数据仓库(SparkSQL、Shark),大数据建模挖掘与机器学习(Mahout、MLib、Oryx、Pentaho BI、SAS、SPSS、R等)、MPP并行数据仓库(Greenplum etc)、NoSQL与NewSQL分布式数据库(HBase、MongoDB、Cassandra etc)、(移动)电子商务平台、大数据搜索平台(ElasticSearch、Solr、Lucene等)、云计算与虚拟化(OpenStack,VMware,XenServer,CloudStack,KVM,Docker,SaaS服务)、云存储系统、Swift对象存储系统、网络GIS地图服务器、互联网+在线教育云平台方面的项目研发与管理工作。
培训费6800元/人。(含培训费、资料费、考试费、证书费、讲义费等)。需要住宿学员请提前通知,可统一安排,费用自理。
交通指南:
周边交通信息