封面
版权信息
内容简介
作者简介
前言
第1章 理解网络爬虫
1.1 爬虫的定义
1.2 爬虫的类型
1.3 爬虫的原理
1.4 爬虫的搜索策略
1.5 爬虫的合法性与开发流程
1.6 本章小结
第2章 爬虫开发基础
2.1 HTTP与HTTPS
2.2 请求头
2.3 Cookies
2.4 HTML
2.5 JavaScript
2.6 JSON
2.7 Ajax
2.8 本章小结
第3章 Chrome分析网站
3.1 Chrome开发工具
3.2 Elements标签
3.3 Network标签
3.4 分析QQ音乐
3.5 本章小结
第4章 Fiddler抓包
4.1 Fiddler介绍
4.2 Fiddler安装配置
4.3 Fiddler抓取手机应用
4.4 Toolbar工具栏
4.5 Web Session列表
4.6 View选项视图
4.7 Quickexec命令行
4.8 本章小结
第5章 爬虫库Urllib
5.1 Urllib简介
5.2 发送请求
5.3 复杂的请求
5.4 代理IP
5.5 使用Cookies
5.6 证书验证
5.7 数据处理
5.8 本章小结
第6章 爬虫库Requests
6.1 Requests简介及安装
6.2 请求方式
6.3 复杂的请求方式
6.4 下载与上传
6.5 本章小结
第7章 Requests-Cache爬虫缓存
7.1 简介及安装
7.2 在Requests中使用缓存
7.3 缓存的存储机制
7.4 本章小结
第8章 爬虫库Requests-HTML
8.1 简介及安装
8.2 请求方式
8.3 数据清洗
8.4 Ajax动态数据抓取
8.5 本章小结
第9章 网页操控与数据爬取
9.1 了解Selenium
9.2 安装Selenium
9.3 网页元素定位
9.4 网页元素操控
9.5 常用功能
9.6 实战:百度自动答题
9.7 本章小结
第10章 手机App数据爬取
10.1 Appium简介及原理
10.2 搭建开发环境
10.3 连接Android系统
10.4 App的元素定位
10.5 App的元素操控
10.6 实战:淘宝商品采集
10.7 本章小结
第11章 Splash、Mitmproxy与Aiohttp
11.1 Splash动态数据抓取
11.2 Mitmproxy抓包
11.3 Aiohttp高并发抓取
11.4 本章小结
第12章 验证码识别
12.1 验证码的类型
12.2 OCR技术
12.3 第三方平台
12.4 本章小结
第13章 数据清洗
13.1 字符串操作
13.2 正则表达式
13.3 BeautifulSoup数据清洗
13.4 本章小结
第14章 文档数据存储
14.1 CSV数据的写入和读取
14.2 Excel数据的写入和读取
14.3 Word数据的写入和读取
14.4 本章小结
第15章 ORM框架
15.1 SQLAlchemy介绍与安装
15.2 连接数据库
15.3 创建数据表
15.4 添加数据
15.5 更新数据
15.6 查询数据
15.7 本章小结
第16章 MongoDB数据库操作
16.1 MongoDB介绍
16.2 MogoDB的安装及使用
16.3 连接MongoDB数据库
16.4 添加文档
16.5 更新文档
16.6 查询文档
16.7 本章小结
第17章 实战:爬取51Job招聘信息
17.1 项目分析
17.2 获取城市编号
17.3 获取招聘职位总页数
17.4 爬取每个职位信息
17.5 数据存储
17.6 爬虫配置文件
17.7 本章小结
第18章 实战:分布式爬虫——QQ音乐
18.1 项目分析
18.2 歌曲下载
18.3 歌手的歌曲信息
18.4 分类歌手列表
18.5 全站歌手列表
18.6 数据存储
18.7 分布式爬虫
18.8 本章小结
第19章 实战:12306抢票爬虫
19.1 项目分析
19.2 验证码验证
19.3 用户登录与验证
19.4 查询车次
19.5 预订车票
19.6 提交订单
19.7 生成订单
19.8 本章小结
第20章 实战:玩转微博
20.1 项目分析
20.2 用户登录
20.3 用户登录(带验证码)
20.4 关键词搜索热门微博
20.5 发布微博
20.6 关注用户
20.7 点赞和转发评论
20.8 本章小结
第21章 实战:微博爬虫软件开发
21.1 GUI库及PyQt5的安装与配置
21.2 项目分析
21.3 软件主界面
21.4 相关服务界面
21.5 微博采集界面
21.6 微博发布界面
21.7 微博爬虫功能
21.8 本章小结
第22章 Scrapy爬虫开发
22.1 认识与安装Scrapy
22.2 Scrapy爬虫开发示例
22.3 Spider的编写
22.4 Items的编写
22.5 Item Pipeline的编写
22.6 Selectors的编写
22.7 文件下载
22.8 本章小结
第23章 Scrapy扩展开发
23.1 剖析Scrapy中间件
23.2 自定义中间件
23.3 实战:Scrapy+Selenium爬取豆瓣电影评论
23.4 实战:Scrapy+Splash爬取B站动漫信息
23.5 实战:Scrapy+Redis分布式爬取猫眼排行榜
23.6 分布式爬虫与增量式爬虫
23.7 本章小结
第24章 实战:爬取链家楼盘信息
24.1 项目分析
24.2 创建项目
24.3 项目配置
24.4 定义存储字段
24.5 定义管道类
24.6 编写爬虫规则
24.7 本章小结
第25章 实战:QQ音乐全站爬取
25.1 项目分析
25.2 项目创建与配置
25.3 定义存储字段和管道类
25.4 编写爬虫规则
25.5 本章小结
第26章 爬虫的上线部署
26.1 非框架式爬虫部署
26.2 框架式爬虫部署
26.3 本章小结
第27章 反爬虫的解决方案
27.1 常见的反爬虫技术
27.2 基于验证码的反爬虫
27.3 基于请求参数的反爬虫
27.4 基于请求头的反爬虫
27.5 基于Cookies的反爬虫
27.6 本章小结
第28章 自己动手开发爬虫框架
28.1 框架设计说明
28.2 异步爬取方式
28.3 数据清洗机制
28.4 数据存储机制
28.5 实战:用自制框架爬取豆瓣电影
28.6 本章小结
更新时间:2019-11-22 18:45:53