会议详情 菜单
2018年第二期Python网络爬虫与文本挖掘培训班

2018年第二期Python网络爬虫与文本挖掘培训班

2018-06-22 09:00 至 2018-06-24 17:30

北京   待定

北京博宏科睿教育科技有限公司   

50人

报名截止

推荐会议:SECon 2025 全球软件工程技术大会·深圳

发票类型:增值税普通发票

参会凭证: 邮件/短信发送参会通知

-会议内容-

各科研院所单位:

随着互联网的发展,网络信息呈现指数式增长,要在短时间内获取大量信息,网络爬虫无疑是一种最适合的方法。通过爬虫获取的海量信息,我们可以对其进行进一步的分析:市场预测、文本分析、机器学习方法等。

Python作为一门脚本语言,它灵活、易用、易学、适用场景多,实现程序快捷便利,早已经成为程序员们的一门编程利器。Python这门编程语言包罗万象,可以说掌握了python,除了一些特殊环境和高度的性能要求,你可以用它做任何事。为提升相关科技工作者的技术水平,北京博宏科睿教育科技有限公司特举办2018年第二期“Python爬虫与文本挖掘实例技术与应用”培训班,本次培训从爬虫的基本知识入手,使用Python作为实现工具,一步步讲述网络爬虫的实现,具体内容如下:           

【培训目标】

1.让学员尽快掌握python语言的基本结构与语法与数据类型,模块、基本用法,熟悉函数,类设计,包的使用及基本的编程方法;

2.理解python数据挖掘与分析技术在当代各种大数据相关产品中的应用,并掌握该领域最关键技术的原理以及技术应用过程;

3. 能开发出一些实际的应用项目并初步胜任Python的数据挖掘和机器学习工作;

4. 通过紧密结合应用实例,针对工作中存在的疑难问题进行分析讲解和专题讨论,进而有效提升学员解决科研及教学中实际问题的能力同时提升其从数据角度去思考的能力。     

-主办方介绍-

北京博宏科睿教育科技有限公司

 2018年6月21日----6月24日  北 京*东城区北三环东路(时间安排:第一天报到、授课三天) 

课程安排

课程主题

课程内容

第一天

Python基础与爬虫入门

第一章

Python基础

1.初识Python:开发环境安装与使用

2.基本概念

3.基本数据结构(元组、列表、字符串、字典)

4.Python基本语法:(条件、循环、函数、类、模块)

5.类介绍

6.Python文件操作实战

7.Python异常处理实战

第二章

正则表达式简介

1.正则表达式简介

2.正则表达式应用(re模块,re.compile,re.find,re.search)

3.正则表达式匹配过程

4.利用API进行数据采集

5.正则表达式解释HTML

第三章

Python爬虫技术入门

1.什么是爬虫

2.爬虫的分类和使用范围

3.爬虫基本框架

4.urllib,urllib2模块(urllib2.urlopen,urllib2.Request)

5.手动编写简单爬虫

案例一:爬取葡萄酒品质分析数据,然后对数据进行整理汇总,可视化展示.

案例二:抓取分析手机号码.

案例三:手动编写简单爬虫并实战.

第二天

Python爬虫技术进阶

第四章

Python爬虫技术

1.抓取策略和ULR去重    2.数据存储

3.数据解释和提取        4.模拟登陆及验证码识别

5.爬虫的攻防之道与可视化爬虫

第五章

Python爬虫技术进阶

 

1.著名爬虫框架介绍

(portia,Pyspider,Newspaper,Python-goose)

2.Scrapy爬虫框架

(spider,engine,scheduler,downloader,item pipeline)

3. Scrapy开发流程

4. Scrapy与Urllib的整合使用

案例一:提取当当书目信息,然后对数据进行整理汇总,可视化展示.

案例二:应用Scrapy爬取名人名言

第三天

文本分析基础和进阶

第六章

文本挖掘入门

1.介绍文本分词的方法

2. 按词性提取关键词

Jieba模块,nltk模块(jieba.cut,jieba.cut_for_search())

第七章

深度学习入门

1.深度学习的前世今生

2.人工神经网络ANN  TensorFlow模块,keras模块

第八章

基于LSTM的文本情感分析

1.什么是LSTM     2.文本的情感分析

3.从用户评价中提取用户对事物的评价

4.分析用户对产品的态度和情感

案例一:手写数字图像识别

案例二:提取用户对事物的评价和对产品的态度和情感

疑难解答

学员可结合自身感兴趣需要解决的疑难问题,可带着相关问题咨询授课老师。

刘老师:对外经济贸易大学大数据系副教授,海归计算机专业博士,讲授计算机应用基础、数据结构、计算机网络、智能计算、Python与大数据分析等课程。其研究内容涉及:科技金融(基于机器学习的选股策略研究,信用逾期预测)图像分析理解,文本分析,智能硬件,数据挖掘、机器学习、手写识别等内容。曾获得过ImageCLEF2012 Photo annotation task国际图像分类竞赛中获得第一名,ImageCLEF2015 Scalable Concept Image Annotation Task(text-base) 第四名。

-会议门票-

【培训费用】

 RMB:3900元/人(含报名费、培训费、教材资料费、场地费、午餐费、证书办理费等)培训期间可统一协助安排食宿,费用自理。

颁发证书:参加相关培训学员可获得由工业和信息化部通信和信息技术创新人才培养工程颁发《数据挖掘应用工程师》职业水平证书。

请学员自备一寸照片一张(背后标注姓名及身份证号)办理证书需要,报到当天交由会务组人员。     

-场馆介绍-

待定
会议标签:

Python 数据分析

温馨提示
酒店与住宿: 异地参会客户请注意,为防止会议临时变动,建议您先与活动家客服确认参会信息,再安排出行与住宿事宜。
退款规则: 活动各项资源需提前采购,购票后不支持退款,可以换人参加。

相关会议

分享到

QQ好友 QQ空间 微博 ×