应大家的要求,最近打算整理一下PYTHON爬虫的东东,希望能对入门的童鞋们有所助益!本人技术一般水平有限,如有不妥请联系或者私信本人,互相进步。
内容会同步在简书、CSDN、慕课更新,希望能符合上帝的爱好。
内容部分打算分成三个板块进行讲解
- 爬虫正传——江湖路远——主要讲解爬虫使用的各种技术
- 爬虫外传——风云再起——主要讲解爬虫使用的各种工具操作
- 爬虫歪传——醉生梦死——那些年的爬虫工作
目前正在整理的肯定是正传部分了,希望能在大家的鼓励中坚持下来吧。
大牧夜话——爬虫正传目录预告:目录
1. 亚当跟夏娃的故事——urllib2底层数据采集方式 2
1.1. 刀未佩妥,出门已是江湖——第一个爬虫程序 3
1.2. 少侠师承何处——伪装服务器请求 4
1.3. 江湖夜路,入乡随俗——模仿用户行为 9
1.4. 生存之道,狡兔三窟——IP代理池 9
2. 关隘守护者——正则表达式数据匹配 9
2.1. 缘起缘灭——正则表达式概览 9
2.2. 你有张良计,我有过墙梯——新闻数据采集 9
3. 突击军火贩子——requests爬虫模块 10
3.1. 永恒的话题:中间商赚差价——requests模块 10
3.2. 合法的商人——伪造浏览器请求头 10
3.3. 合法的行为——伪造自然用户的操作 10
3.4. 隐藏的踪迹——IP代理池 10
4. 游击的天下无往不利——Xpath数据提取 10
4.1. 做好每一个细节——Xpath语法概述 10
4.2. 农村包围城市——电商网站数据采集 10
5. 政府才是最大的组织——scrapy爬虫框架 11
5.1. 国家行为——scrapy框架概述 11
5.2. 暴力机关——爬虫模块操作 11
5.3. 公民是最基本的单元——设置模仿浏览器请求头 11
5.4. 永远找不到的有关部门——IP代理池 11
6. 精确打击——BeautifulSoup4数据筛选 11
6.1. 激光制导——BeautifulSoup4概述 11
6.2. 精确打击——雪球网股票数据采集 11
7. 联军出动——分布式爬虫采集数据 12
7.1. 风无常势,水无常形——分布式概述 12
7.2. 精确分析,梯度推进——需求分析及开发步骤 12
7.3. 顺势而行,水到渠成——开发部署,采集数据 12