PTH124:网络爬虫技术与实践

开班计划时间:12 小时
  • 具体开课时间请咨询课程顾问
预约试听 马上咨询
课程介绍
适用对象:人工智能开发人员
学习收获:掌握网络信息获取及文本挖掘的基本知识及深度应用 、熟练运用使用Python获取网络数据并独立开发常见的爬虫项目 、熟练的进行文本分析处理全面了解Python爬虫的相关知识 、学习Python爬虫的核心技术方法以及应用特征
详细大纲
1 网络爬虫技术基础
1.1 网络通信基础
1.2 HTTP协议简介
1.3 Web开发知识介绍
1.4 网站分析知识介绍
2 开发环境与Python基础
2.1 开发环境安装与使用(Anaconda套件与PyCharm)
2.2 Python基础数据结构(元组/列表/字符串/字典)
2.3 Python基础语法(条件/循环/函数/类/模块)
2.4 常用Python库使用案例分享
2.5 Python技巧与实践分享
3 网络爬虫工具库
3.1 认识正则表达式
3.2 基础Python爬虫库(urllib/Requests)
3.3 “漂亮”的爬虫库-Beautiful Soup
3.4 静态网页爬取案例分享
3.5 Selenium与“幻影”浏览器-PhantomJS
3.6 Ajax和DHTML网站爬取
3.7 动态网页爬取案例分享
3.8 利用API进行数据采集
4 网络爬虫框架
4.1 Python网络爬虫框架介绍
4.2 Scrapy基本使用
4.3 Scrapy进阶使用
4.4 爬虫框架使用案例分享
5 分布式爬虫
5.1 爬虫队列设计
5.2 多线程爬虫
5.3 多进程爬虫
5.4 集群化爬取
6 网络爬虫存储
6.1 文件读取与保存
6.2 关系数据库存储-MySQL
6.3 分布式存储-NoSQL数据库
6.4 HDFS简介
6.5 分布式存储案例分享
7 网络爬虫常用技巧
7.1 表单处理
7.2 模拟登录
7.3 常见验证码突破
7.4 爬虫代理池
7.5 各类网页内容处理
7.6 设计隐蔽的网络爬虫
7.7 设计容错的网络爬虫
8 文本挖掘技术基础
8.1 文本挖掘全流程概述
8.2 自然语言处理库(NLTK)
8.3 TextBlob文本处理库介绍
8.4 中文分词介绍(jieba)
8.5 词云介绍
9 文本挖掘技术进阶
9.1 文本挖掘预处理技术
9.2 文本特征处理
9.3 文本聚类
9.4 主题模型
9.5 基于深度学习的文本挖掘
9.6 文本挖掘案例分享
课程评价

课程评价({{EvaluationTotal}})

课程满意度

评价

您还没有给课程评分哦

满意度

    追加评价:

课程咨询
内容:

您还没有填写内容!

暂无问答,赶紧去提问吧
{{item.AnswerState==1?"已解决":"未解决"}}
{{item.Content}}
{{item.StudentAskTime}}
{{itemanswer.UserName}}
{{itemanswer.Content}}
{{itemanswer.StudentAskTime}}
同类课程推荐 more
嘉为大讲堂 more
原创文章 more

您好! 欢迎来到学领未来 !

学领未来提供线上及线下的学习服务,根据您的位置,为您推荐最近的线下培训地点 分站,你选择: