这个就是生成的爬虫文件
选always
在pycharm中同步
douban_spiders.py生成 成功
生 成
进入项目的spriders目录
3333333
创建scripy项目
222222222222222
11111111111111
scrapy genspider douban_spider movie.douban.com
建立爬虫
douban_spider 爬虫名称
movie.douban.com 爬虫入口
爬虫四步走
新建项目
明确目标
制作爬虫
存储内容
scrapy startproject douban
scrapy抓取4步走
创建scrapy爬虫项目
scrapy startproject douban +url
1、创建scrapy爬虫项目
`scrapy startproject douban`
初始化生成的项目目录
```
- spiders
- __init__.py
- __init__.py
- items.py
- middlewares.py
- pipelines.py
- settings.py
- scrapy.cfg
```
2、在生成当前自动生成爬虫文件
`scrapy genspider douban_spider movie.douban.com `
生成爬虫
在spiders目录下
scrapy genspider douban_spider 域名
创建scrapy项目
scrapy startproject douban
setting配置的讲解
setting设置
Scrapy抓取4步曲
创建scrapy项目
在spider下创建爬虫文件
创建爬虫项目
Scrapy抓取4步走:新建项目、 明确目标、 制作爬虫、 存储内容
(1)新建项目:
命令行输入:
scrapy startproject douban
将工程导入pycharm:
打开PyCharm,然后选择open文件,找到刚刚创建的项目,直接打开,然后进行PyCharm的Preferences中,选择Project Interpreter,这时候会看到显示[invalid] Python 3.6(scrapy)...,选择右边设置按钮,选择show all,然后左下角➕按钮,在页面中,直接点OK即可。
创建douban_spider文件:
进入douban\spiders目录,输入scrapy genspider douban_spider movie.douban.com
此课程需要一定的基础。
1,python写类
2,Linux操作系统基本操作
3,数据库基础
爬取数据的四个步骤:
1、新建项目
2、明确目标
3、制作爬虫
4、存储呢日荣
scrapy认证设置
SPIDER_MIDDLEWARES (爬取中间键)
DOWNLOADMIDDLEWARES(下载中间键)
Extensions (扩展中间键)
ITEM_PIPELINES (中间键)
放开注释即可使用和修改
并发量 concurrent 默认16
下载延迟 Download_Delay=3
以及每个域名的并发量和每个ip的并发量
是否开启cookie(在登录页面爬取时)
robotstxt 协议以及User—agent修改位置