Linux部署Scrapy项目实战教程-原创手记-慕课网

概述

本文详细介绍了如何在Linux环境中部署Scrapy项目，从安装Scrapy开始，逐步讲解了项目开发、配置以及使用Supervisor守护爬虫运行的全过程。内容涵盖了Scrapy项目的创建、开发、部署及维护，帮助读者全面掌握在Linux环境下部署Scrapy项目的技能。

Scrapy简介与安装

Scrapy是什么

Scrapy 是一个用于抓取网站数据、提取结构化信息的开源爬虫框架。它非常适合从网站上抓取大量数据，并支持多种输出格式（如JSON、XML和CSV）。Scrapy通过灵活的命令行界面，可以轻松定义抓取规则、处理抓取的数据并存储到本地或远程数据库中。

Scrapy的核心特点包括：

异步非阻塞的爬虫架构
支持多种下载器（如HTTP、FTP等）
支持多种输出格式
内置多种中间件和扩展插件
支持XPath、CSS选择器和自定义正则表达式等数据解析方式

Scrapy项目的特点

Scrapy项目的特点包括：

优先级队列：Scrapy使用优先级队列来管理待下载的URL，可以实现对请求的优先级排序。
自动处理重定向：能够自动处理HTTP重定向，无需手动设置。
异步下载机制:
- 支持异步下载，最大限度地提高抓取效率。
- 使用内存池技术，高效管理内存，避免内存泄漏。
支持多种下载器：除了HTTP下载器，还支持FTP、SFTP等其他协议的下载。
中间件支持：通过中间件实现扩展功能，如代理、认证等。
支持多种输出格式：可以将抓取的数据输出为JSON、XML、CSV等格式。
强大的数据提取功能：使用XPath、CSS选择器或正则表达式进行数据解析。
强大的调度功能：内置了请求调度和重试机制，保证了抓取任务的稳定性和可靠性。
支持多种存储方式：可以将抓取的数据存储到文件、数据库或分布式系统中。
自动爬虫调试：内置了调试工具，方便调试和测试爬虫。

在Linux环境下安装Scrapy

安装Scrapy需要先安装Python环境，然后使用pip工具安装Scrapy。以下是在Ubuntu系统上安装Scrapy的步骤：

# 安装Python环境
sudo apt-get update
sudo apt-get install python3 python3-pip

# 使用pip安装Scrapy
pip3 install scrapy

准备工作

创建Scrapy项目

创建Scrapy项目使用scrapy startproject命令。以下是在当前目录创建一个名为myproject的Scrapy项目：

scrapy startproject myproject

创建后，myproject目录将包括以下文件和目录：

myproject:项目根目录，包含所有Scrapy项目相关的文件。
- myproject/items.py:定义项目中要抓取的数据结构。
- myproject/settings.py:配置项目的全局设置，比如爬虫的名称、下载器中间件、日志配置等。
- myproject/spiders:存放爬虫文件的目录。
- myproject/pipelines.py:定义数据处理管道的文件。
- myproject/目录下其他文件：如__init__.py、middlewares.py等。

安装依赖库

Scrapy项目中可能需要使用一些依赖库，例如lxml、cssselect、requests和beautifulsoup4等。这些库可以通过pip安装。以下是在项目中安装依赖库的命令：

pip install lxml
pip install cssselect
pip install requests
pip install beautifulsoup4

Linux环境配置

设置Python环境

确保Python环境已经安装并且配置正确。使用以下命令检查Python版本：

python3 --version

如果未安装Python，使用以下步骤安装：

sudo apt-get update
sudo apt-get install python3 python3-pip

设置Python环境变量，将Python的安装路径添加到环境变量PATH中：

export PATH="/usr/bin:$PATH"

安装必要的Linux工具

为了提高开发效率，可以安装一些必要的Linux工具，例如vim、git等。以下是安装这些工具的命令：

sudo apt-get install vim
sudo apt-get install git

Scrapy项目开发基础

创建Scrapy爬虫

在Scrapy项目中，每种需要抓取网站的爬虫都存放在spiders目录中。要创建一个新的爬虫，可以使用scrapy genspider命令。以下是创建一个名为example的爬虫，用于抓取example.com网站的页面：

cd myproject/spiders
scrapy genspider example example.com

该命令会在spiders目录下生成一个名为example.py的爬虫文件。假设项目名称为myproject，那么spiders目录下的文件结构如下：

myproject/
    myproject/
        items.py
        settings.py
    spiders/
        example.py

编写Scrapy爬虫代码

在example.py文件中，编写爬虫代码。以下是一个简单的Scrapy爬虫代码示例，用于抓取example.com网站的首页标题：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        print(f"Title: {title}")

这段代码定义了一个名为ExampleSpider的爬虫，它的name属性为example，start_urls列表中包含目标网站的主页URL。方法parse是默认的回调函数，用于处理抓取的响应，这里使用CSS选择器提取页面的标题，并打印出来。

运行Scrapy爬虫

在myproject目录下，使用以下命令运行爬虫：

scrapy crawl example

命令运行后会输出抓取的数据，如果一切正常，应该会看到打印出的页面标题。

Scrapy项目部署

使用Supervisor守护Scrapy爬虫

为了确保Scrapy爬虫在Linux服务器上稳定运行，可以使用Supervisor进行管理。安装Supervisor：

sudo apt-get install supervisor

创建一个Supervisor配置文件，在/etc/supervisor/conf.d/目录下创建一个文件（例如scrapy.conf），内容如下：

[program:scrapy]
command=/usr/bin/python3 /path/to/myproject/myproject/spiders/example.py
directory=/path/to/myproject
autostart=true
autorestart=true
stderr_logfile=/path/to/myproject/logs/scrapy.err.log
stdout_logfile=/path/to/myproject/logs/scrapy.out.log

配置完成后，使用以下命令更新Supervisor配置并启动爬虫：

sudo supervisorctl reread
sudo supervisorctl update
sudo supervisorctl start scrapy

部署Scrapy项目到Linux服务器

将Scrapy项目部署到Linux服务器上，可以使用SCP或FTP工具上传项目文件。假设服务器地址为192.168.1.100，使用SCP上传项目文件：

scp -r /path/to/myproject/ user@192.168.1.100:/path/to/remote/project/

确保在服务器上安装了Python环境和pip，并安装必要的依赖库：

ssh user@192.168.1.100
sudo apt-get install python3 python3-pip
cd /path/to/remote/project/
pip install -r requirements.txt

其中requirements.txt文件中列出项目所需的依赖库，例如：

Scrapy==2.4.1
lxml
cssselect
requests
beautifulsoup4

项目维护与调试

项目日志解析

Scrapy项目默认提供了日志记录功能，日志文件存储在LOG_FILE设置中指定的路径。例如，可以在settings.py文件中设置日志文件路径：

LOG_FILE = "/path/to/myproject/logs/myproject.log"

可以通过查看日志文件来追踪抓取过程中遇到的问题，例如网络错误、解析错误等。

示例代码

# 设置日志配置
LOG_FILE = "/path/to/myproject/logs/myproject.log"
LOG_LEVEL = 'INFO'

# 设置重试机制
RETRY_TIMES = 3
RETRY_HTTP_CODES = [500, 502, 503, 504, 520, 522, 524, 408, 429]

# 启用HTTP缓存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = '/path/to/myproject/cache'
HTTPCACHE_IGNORE_MISSING = True

# 使用cron定时任务
0 0 * * * python3 /path/to/myproject/myproject/spiders/example.py

常见问题解决

示例代码

# 检查选择器是否正确匹配数据
from scrapy.selector import Selector

response = Selector(text='...')  # 模拟HTTP响应
title = response.css('title::text').get()
print(f"Title: {title}")

# 使用Chrome DevTools验证选择器
# 打开Chrome开发者工具 -> 选择Elements标签 -> 查找匹配的元素

项目性能优化

并行爬取：通过调整CONCURRENT_REQUESTS设置来增加并行抓取的数量，可以提高抓取速度。
重试机制：利用RETRY_TIMES和RETRY_HTTP_CODES设置来处理网络请求失败的情况，避免因暂时性错误导致的任务中断。
文件缓存：利用HTTPCACHE_ENABLED设置启用HTTP缓存功能，减少重复抓取同一页面的次数，降低服务器负载。
定时任务：使用定时任务工具（如cron）来定期启动爬虫，确保数据的及时更新。

示例代码

# 示例：设置并行抓取
CONCURRENT_REQUESTS = 32

# 示例：配置重试机制
RETRY_TIMES = 3
RETRY_HTTP_CODES = [500, 502, 503, 504, 520, 522, 524, 408, 429]

# 示例：启用HTTP缓存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 0
HTTPCACHE_DIR = '/path/to/myproject/cache'
HTTPCACHE_IGNORE_MISSING = True

# 示例：使用cron定时任务
0 0 * * * python3 /path/to/myproject/myproject/spiders/example.py

示例代码

创建Scrapy项目

scrapy startproject myproject
cd myproject/spiders
scrapy genspider example example.com

编写Scrapy爬虫代码

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        print(f"Title: {title}")

运行Scrapy爬虫

scrapy crawl example

使用Supervisor守护Scrapy爬虫

创建Supervisor配置文件/etc/supervisor/conf.d/scrapy.conf：

[program:scrapy]
command=/usr/bin/python3 /path/to/myproject/myproject/spiders/example.py
directory=/path/to/myproject
autostart=true
autorestart=true
stderr_logfile=/path/to/myproject/logs/scrapy.err.log
stdout_logfile=/path/to/myproject/logs/scrapy.out.log

更新Supervisor配置并启动爬虫：

sudo supervisorctl reread
sudo supervisorctl update
sudo supervisorctl start scrapy

部署Scrapy项目到Linux服务器

上传项目文件到服务器：

scp -r /path/to/myproject user@192.168.1.100:/path/to/remote/project/

安装依赖库：

ssh user@192.168.1.100
sudo apt-get install python3 python3-pip
cd /path/to/remote/project/
pip install -r requirements.txt

这些示例代码和步骤涵盖了Scrapy项目的创建、开发、部署及维护的全过程，有助于理解和掌握Scrapy项目在Linux环境下的使用。