Scrapyd入门教程：轻松搭建分布式Scrapy任务调度系统-原创手记-慕课网

概述

Scrapyd是一个由Scrapy社区维护的分布式爬虫任务调度系统，通过HTTP API方式部署和管理Scrapy项目。它提供了部署、启动、停止和监控爬虫任务的功能，旨在提高爬取效率和任务管理的灵活性。Scrapyd支持多种方式来控制爬虫任务，包括启动、停止和获取爬虫状态。

Scrapyd简介

Scrapyd是一个由Scrapy社区维护的分布式爬虫任务调度系统。它使你能够通过HTTP API方式部署Scrapy项目，并管理爬虫任务，同时方便地查看爬虫的状态。Scrapyd旨在解决Scrapy单机部署的局限性，通过分布式部署提高爬取效率和任务管理的灵活性。

Scrapyd是什么

Scrapyd是一个HTTP API服务，允许你通过命令行或编程语言发送HTTP请求来部署Scrapy项目，启动或停止爬虫，并查看爬虫状态。它提供了一个Web接口，可以方便地管理和查看爬虫运行状态。Scrapyd本身不包含Scrapy项目，但它可以管理和部署任意数量的Scrapy项目。

Scrapyd能做什么

Scrapyd的主要功能包括：

部署Scrapy项目：通过HTTP API发送请求，将本地的Scrapy项目部署到服务器上。
启动爬虫：通过调用API，启动已部署的爬虫运行。
停止爬虫：通过调用API，停止正在运行的爬虫。
获取爬虫状态：通过调用API，获取爬虫的运行状态，包括运行时间、剩余待爬取的URL数量等。
管理日志：通过访问指定的URL，获取爬虫的日志信息。

Scrapyd和Scrapy的关系

Scrapyd和Scrapy是两个紧密相关的工具，但它们各自有不同的功能和用途。

Scrapy是一个强大的爬虫框架，用于爬取网站并提取结构化的数据。Scrapy本身是Python编写的，提供了丰富的API并允许开发者自定义爬虫逻辑。
Scrapyd是一个服务，用于部署和管理Scrapy项目。它提供了部署Scrapy项目的接口，能够启动、停止和监控爬虫任务。Scrapyd不是Scrapy的一部分，而是一个由Scrapy社区维护的扩展工具。

安装与配置

安装和配置Scrapyd需要分为服务器端和客户端两部分。服务器端负责接收和处理来自客户端的HTTP请求，管理Scrapy项目的部署和运行；客户端则用于远程控制部署和运行爬虫任务。

安装Scrapyd服务端

安装Python和pip

确保你的系统中已经安装了Python和pip。如果没有安装，可以通过如下命令安装：

# Ubuntu/Debian
sudo apt-get update
sudo apt-get install python3 python3-pip
# CentOS/RHEL
sudo yum install python3 python3-pip

安装Scrapyd
- 使用pip安装Scrapyd服务端：
```
pip install scrapyd
```
启动Scrapyd服务
- 使用如下命令启动Scrapyd服务：
```
scrapyd
```
- 启动后，Scrapyd将监听默认端口（8080）。可以通过访问http://localhost:8080来验证Scrapyd是否正常运行。

配置Scrapyd服务端

Scrapyd的默认配置文件是scrapyd.conf，位于系统路径中。可以通过编辑该配置文件来自定义Scrapyd的配置。

找到配置文件
- 默认情况下，配置文件位于~/.scrapyd/scrapyd.conf，或者可以使用scrapyd命令的-c选项来指定配置文件的路径。
- 示例配置文件：
```
[scrapyd]
http_port = 8080
bind_address = 127.0.0.1

[settings]
default = default_settings

[dbs]
default = sqlite:///database.sqlite
```
修改配置文件
- 根据需求修改配置文件中的参数。例如，修改监听的IP地址和端口：
```
bind_address = 0.0.0.0
http_port = 8081
```
- 修改Scrapy项目的默认设置：
```
[settings]
default = myproject.settings
```

安装Scrapyd客户端

安装Scrapyd客户端主要用于远程控制Scrapy项目的部署和运行。客户端可以通过命令行工具scrapyd-client发送HTTP请求来操作Scrapyd服务器。

安装scrapyd-client
- 使用pip安装scrapyd-client：
```
pip install scrapyd-client
```
使用scrapyd-client发送请求
- 启动Scrapyd客户端时，可以通过如下命令与Scrapyd服务器进行通信：
```
scrapyd-client -u http://localhost:8080
```

使用Scrapyd部署爬虫项目

为了部署Scrapy项目到Scrapyd服务器，你需要先创建Scrapy项目，然后将项目上传到Scrapyd，最后部署项目。

创建Scrapy项目

使用如下命令创建Scrapy项目：
```
scrapy startproject myproject
```

创建项目后，目录结构如下：

myproject/
├── myproject/
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       ├── __init__.py
│       └── first_spider.py
├── scrapy.cfg
└── requirements.txt

编写爬虫

在myproject/spiders/目录下创建一个爬虫文件first_spider.py，例如：

import scrapy

class FirstSpider(scrapy.Spider):
 name = 'first'
 start_urls = ['http://example.com/']

 def parse(self, response):
     self.log('Visited ' + response.url)
     yield response.css('h1 a::text').extract_first()

上传Scrapy项目到Scrapyd

上传Scrapy项目到Scrapyd服务器需要先将项目打包成egg文件。

安装setuptools
- 使用pip安装setuptools：
```
pip install setuptools
```
打包项目
- 切换到项目目录并打包项目：
```
cd myproject
python setup.py bdist_egg
```
- 打包完成后，可以在dist/目录下找到生成的egg文件，例如myproject-1.0.0-py3.7.egg。

上传egg文件

使用scrapyd-client上传egg文件到Scrapyd服务器：

scrapyd-client -u http://localhost:8080/ deploy myproject /path/to/myproject-1.0.0-py3.7.egg

部署Scrapy项目

部署Scrapy项目到Scrapyd服务器的过程包括上传项目和启动爬虫。

部署项目

使用scrapyd-client部署项目：

scrapyd-client -u http://localhost:8080/ deploy myproject

启动爬虫
- 启动刚刚部署的爬虫：
```
scrapyd-client -u http://localhost:8080/ schedule myproject first
```
- 这里myproject是项目名称，first是爬虫名称。

控制Scrapy爬虫任务

Scrapyd提供了多种控制爬虫任务的方式，包括启动、停止和获取爬虫状态。

启动Scrapy爬虫

启动爬虫任务可以通过发送HTTP请求给Scrapyd服务端来实现。具体步骤如下：

发送启动请求
- 使用如下命令启动爬虫：
```
scrapyd-client -u http://localhost:8080/ schedule myproject first
```
- 这里的myproject和first分别是项目名和爬虫名。
验证爬虫状态
- 通过访问http://localhost:8080/deliveries查看爬虫的运行状态。

停止Scrapy爬虫

停止运行中的爬虫可以通过发送HTTP请求来实现。

发送停止请求
- 使用scrapyd-client停止爬虫：
```
scrapyd-client -u http://localhost:8080/ cancel myproject first
```
- 这里的myproject和first分别是项目名和爬虫名。
验证停止状态
- 可以通过访问http://localhost:8080/deliveries来查看爬虫是否已成功停止。

获取Scrapy爬虫状态

获取爬虫的状态可以通过访问Scrapyd提供的URL接口来实现。

获取爬虫状态
- 使用如下命令获取爬虫状态：
```
scrapyd-client -u http://localhost:8080/ list myproject
```
- 这里的myproject是项目名称。
查看日志
- 获取爬虫的日志信息：
```
scrapyd-client -u http://localhost:8080/ log myproject first 0
```
- 这里的myproject和first分别是项目名和爬虫名，0表示获取最新的日志。

Scrapy任务调度与管理

Scrapy任务的调度与管理可以通过多种方式实现，包括使用Scrapyd来设置调度任务、监控任务运行状态和管理日志与错误。

设置调度任务

Scrapyd支持通过scheduleAPI来设置爬虫的运行时间。例如，你可以设置爬虫在每天的某个时间点自动启动。

调度任务
- 使用如下命令设置爬虫的运行时间：
```
scrapyd-client -u http://localhost:8080/ schedule myproject example start_time="2023-10-01T00:00:00"
```
- 这里的start_time参数指定了爬虫启动的具体时间。

监控任务运行状态

Scrapyd提供了多种接口来监控爬虫任务的运行状态，包括查看爬虫的运行时间、剩余待爬取的URL数量等。

获取任务状态
- 可以通过如下命令获取爬虫的状态：
```
scrapyd-client -u http://localhost:8080/ list myproject
```
- 这里的myproject是项目名称。
查看日志
- 获取爬虫的日志信息：
```
scrapyd-client -u http://localhost:8080/ log myproject first 0
```
- 这里的myproject和first分别是项目名和爬虫名，0表示获取最新的日志。
监控爬虫运行
- 可以通过访问http://localhost:8080/status获取Scrapyd服务的状态，以及http://localhost:8080/deliveries获取具体的爬虫任务运行状态。

管理日志和错误

Scrapyd提供了多种方式来管理和查看爬虫的日志和错误信息。

管理日志
- 获取爬虫的日志信息：
```
scrapyd-client -u http://localhost:8080/ log myproject first 0
```
- 这里的myproject和first分别是项目名和爬虫名，0表示获取最新的日志。
管理错误
- 获取爬虫的错误信息：
```
scrapyd-client -u http://localhost:8080/ log myproject first 0
```
- 通过日志信息可以查看爬虫运行过程中出现的错误信息。

在settings.py中配置日志路径

LOG_ENABLED = True
LOG_LEVEL = 'DEBUG'
LOG_FILE = 'myproject.log'

性能优化建议

Scrapy任务的性能优化可以通过多种方式来实现，包括增加并发任务数、优化Scrapy项目的性能和使用异步爬虫。

增加并发任务数
- 优化点：Scrapyd默认情况下每个项目最多同时运行5个任务。可以通过修改配置文件来增加并发任务数。
- 示例配置：
```
[settings]
concurrent_jobs = 10
```
优化Scrapy项目的性能
- 优化点：对Scrapy项目进行调优，例如调整下载延迟、设置最大重试次数等。
- 示例设置：
```
DOWNLOAD_DELAY = 0.5
RETRY_TIMES = 5
```

使用异步爬虫

优化点：使用Scrapy的异步爬虫框架来提高爬取效率。

示例代码：

import scrapy

class AsyncSpider(scrapy.Spider):
 name = 'async_spider'
 start_urls = ['http://example.com/']

 async def parse(self, response):
     await self.log('Visited ' + response.url)
     yield response.css('h1 a::text').get()

Scrapy与Scrapyd的配合使用注意事项

Scrapy项目的兼容性
- 注意点：确保部署的Scrapy项目与Scrapyd兼容，特别是项目依赖项和Scrapy配置需要正确设置。
项目部署的频率
- 注意点：频繁部署项目会增加系统负载，建议在必要时进行部署，例如项目更新或新增爬虫时。
任务调度的合理性
- 注意点：合理设置任务调度，避免同时启动过多任务导致资源竞争和性能下降。

通过以上章节的介绍，相信你已经掌握了如何使用Scrapyd搭建分布式Scrapy任务调度系统，并能够进行有效的任务管理。如果你有任何疑问或需要进一步的帮助，可以参考Scrapy官方文档或社区资源。