Scrapy框架:
Scrapy Engine: Scrapy引擎,负责Spiders,ItemPipline,Scheduler,Downloader中间的通信信号和数据的传递,相当于是一个交通站。
Scheduler: Scrapy的调度器,就是一个队列,负责接收引擎发送过来的request请求,然后将请求排队,当引擎需要请求数据的时候,就将请求队列中的数据交给引擎。
Downloader: Scrapy的下载器,负责发送请求并下载数据,负责下载引擎发送过来的所有request请求,并将获取到的response交还给引擎,然后再由引擎将response交给Spiders来进行解析。
Spiders: Scrapy的爬虫,它是一个正则表达式组价,里面包含很多解析策略,用于分析和提取数据,负责处理所有的response,而如果response包含有其他请求,此时Spiders会将这个请求提交给引擎,再由引擎将这些url再次扔到Scheduler进行处理。
Item Pipeline: Scrapy的管道,用于封装去重类,存储类的地方,负责处理Spiders中获取到的数据,并且进行后期的处理,过滤或者存储等。
Downloader Middlewares: 下载中间件,自定义扩展组件,就是封装代理或者http请求头用于隐藏我们自己。
Spider Middlewares: 爬虫中间件,可以自定义扩展引擎Spiders的中间通信功能的组件,比如进入Spiders的response和从Spders出去的request,它可以在中间做一些修改。
Scrapy框架
Scrapy Engine :引擎,中间连接站
Spider:负责对引擎发来response进行处理,分离干货:数据和新的request
Scheduler:request队列,负责将Spider发来的request请求排列
Downloader:负责下载引擎发来的所有request请求
Item Pipline:负责处理Spider中的数据。并且进行过滤或存储。
scrapy框架:
在windows上也可以,python的可移植性贼强。当然Windows上也支持Scrapy库啦。
长什么样??
是 什 么
111111111111111
Scrapy框架:
Scrapy Engine: Scrapy引擎,负责Spiders,ItemPipline,Scheduler,Downloader中间的通信信号和数据的传递,相当于是一个交通站。
Scheduler: Scrapy的调度器,就是一个队列,负责接收引擎发送过来的request请求,然后将请求排队,当引擎需要请求数据的时候,就将请求队列中的数据交给引擎。
Scrapy框架图示
scrayp框架
开发爬虫要做的事,写的代码
Scrapy框架
Scrapy框架:
Scrapy Engine: Scrapy引擎,负责Spiders,ItemPipline,Scheduler,Downloader中间的通信信号和数据的传递,相当于是一个交通站。
Scheduler: Scrapy的调度器,就是一个队列,负责接收引擎发送过来的request请求,然后将请求排队,当引擎需要请求数据的时候,就将请求队列中的数据交给引擎。
Downloader: Scrapy的下载器,负责发送请求并下载数据,负责下载引擎发送过来的所有request请求,并将获取到的response交还给引擎,然后再由引擎将response交给Spiders来进行解析。
Spiders: Scrapy的爬虫,它是一个正则表达式组价,里面包含很多解析策略,用于分析和提取数据,负责处理所有的response,而如果response包含有其他请求,此时Spiders会将这个请求提交给引擎,再由引擎将这些url再次扔到Scheduler进行处理。
Item Pipeline: Scrapy的管道,用于封装去重类,存储类的地方,负责处理Spiders中获取到的数据,并且进行后期的处理,过滤或者存储等。
Downloader Middlewares: 下载中间件,自定义扩展组件,就是封装代理或者http请求头用于隐藏我们自己。
Spider Middlewares: 爬虫中间件,可以自定义扩展引擎Spiders的中间通信功能的组件,比如进入Spiders的response和从Spders出去的request,它可以在中间做一些修改。
Scrapy框架:
Scrapy Engine: Scrapy引擎
Scheduler: Scrapy的调度器
Downloader: Scrapy的下载器
Spiders: Scrapy的爬虫
Item Pipeline: Scrapy的管道
Downloader Middlewares: 下载中间件
Spider Middlewares: 爬虫中间件
Scrapy是什么?
Scrapy介绍
scrapy arch
scrapy 架构图
scrapy框架
爬虫组件的作用
没有scrapy,用python的urllib,requests抓取
没用Scrapy的时候需要Urllib,requests,封装http头部信息类,多线程或协程,封装代理类,封装数据存储类等方式爬虫信息,造轮子
Scrapy只需要定制开发模块就可以爬虫了
scrapy框架
scrapy框架
downloader;负责下载所有request发送锅里的数据,并将其获得的response交还给引擎,再由引擎将response交还给Spiders进行解析
Spider负责处理所有的response,如果这里还有下一次请求,就再把请求传到Scheduler里
Item Pipline负责后期的处理存储过滤等
Scrapy框架
scrapy 框架
Scrapy爬虫框架处理流程图