Scrapy入门指南：轻松构建网络爬虫-原创手记-慕课网

概述

Scrapy是一个强大的Python网络爬虫框架，主要用于抓取网站数据并解析HTML、XML等文本。它具有异步处理、多种数据存储支持和强大的扩展性等特性，使得开发者可以快速构建高效的爬虫。本文将详细介绍Scrapy的安装方法、基本架构、项目创建及配置等内容。

Scrapy简介及安装

Scrapy是什么

Scrapy 是一个 Python 语言编写的强大的网络爬虫框架，它主要用于抓取网站数据并解析 HTML、XML 等文本。Scrapy 的设计目标是用于抓取网站并从页面信息中提取结构化的数据，而其强大的功能使其成为处理大规模数据抓取的理想工具。Scrapy 包括了异步处理、内置支持多种数据存储方式、强大的扩展性等特性，使得开发者可以快速构建出高效的爬虫。

Scrapy的基本架构

Scrapy 采用组件化架构，包括以下主要组件：

引擎 (Scrapy Engine)：负责控制数据流（从开始到结束），并调用其他组件。
调度器 (Scheduler)：负责存储并获取待抓取的 URL。
下载器 (Downloader)：负责从网站下载数据。
中间件 (Middleware)：可以在请求和响应之间插入处理逻辑。
管道 (Pipeline)：负责处理存储爬取的数据。
爬虫 (Spider)：负责定义爬取逻辑和提取数据。
选择器 (Selector)：用于解析响应内容。

此外，Scrapy 还包括设置（Settings）和命令行工具（Command Line），用于配置 Scrapy 的行为和执行各种任务。

Scrapy的安装方法

Scrapy 依赖于 Python 3 环境。可以在本地安装 Python 3，或者在虚拟环境中安装 Python 3 和 Scrapy。以下是安装步骤：

安装 Python 3：

# 先检查是否已安装 Python 3
python3 --version

# 如果未安装，可以使用以下命令安装（适用于 Debian/Ubuntu 系统）
sudo apt-get update
sudo apt-get install python3

安装 Scrapy：

pip install scrapy

创建Scrapy项目

使用命令行创建项目

使用命令行创建 Scrapy 项目的步骤如下：

打开命令行工具，输入以下命令创建新项目：

scrapy startproject myproject

cd myproject

项目结构解析

创建项目后，会生成如下的项目结构：

myproject/
    scrapy.cfg            # 项目配置文件
    myproject/            # 项目名称
        __init__.py
        items.py          # 定义爬取的数据结构
        middlewares.py    # 定义中间件
        pipelines.py      # 定义管道
        settings.py       # 项目设置
        spiders/          # 爬虫目录
            __init__.py
            myspider.py   # 爬虫文件

scrapy.cfg：Scrapy 项目的配置文件，包括项目的名称和版本等信息。
myproject：项目根目录，包含多个子目录和文件。
myproject/items.py：定义爬取的数据结构。
myproject/middlewares.py：定义中间件。
myproject/pipelines.py：定义管道。
myproject/settings.py：项目设置，包括配置参数等。
myproject/spiders/：存放爬虫文件的目录。
myproject/spiders/myspider.py：定义爬虫逻辑的文件。

定义爬虫规则

在 myspider.py 文件中定义爬虫，需要继承 scrapy.Spider 类。下面是一个简单的爬虫示例：

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        for href in response.css('div.content a ::attr(href)'):
            yield response.follow(href, self.parse_item)

    def parse_item(self, response):
        item = {}
        # 提取数据
        item['title'] = response.css('h1.title ::text').get()
        item['content'] = response.css('div.content ::text').get()
        return item

数据提取与选择器

Scrapy 使用选择器来解析 HTML 和 XML 文档，常用的有 XPath 和 CSS 选择器。

使用XPath和CSS选择器

选择器是 Scrapy 中用于提取数据的核心工具。Scrapy 以 Python 标准库中的 lxml 库为基础提供了丰富的选择器功能。

XPath 示例

response.xpath('//div[@class="item"]/a/text()').get()

CSS 示例

response.css('div.item a ::text').get()

实践案例解析

假设我们有一个简单的 HTML 文件，内容如下：

<html>
<body>
<div class="container">
    <h1>标题</h1>
    <div class="content">
        <p>段落1</p>
        <p>段落2</p>
    </div>
</div>
</body>
</html>

我们希望从中提取标题和段落内容，代码如下：

import scrapy

class SimpleSpider(scrapy.Spider):
    name = "simple_spider"
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('h1 ::text').get()
        paragraphs = response.css('div.content p ::text').getall()
        print("Title:", title)
        print("Paragraphs:", paragraphs)

Scrapy中间件与管道

使用中间件处理请求与响应

Scrapy 中间件是一套组件，可以在请求和响应之间插入逻辑。中间件可以用来处理请求、响应、下载错误、下载器中间件和调度器中间件等。

请求中间件

请求中间件可以修改发送到网站的请求，例如添加代理、设置请求头等。

def process_request(self, request, spider):
    # 添加代理
    request.meta['proxy'] = 'http://example.com:8888'
    return request

响应中间件

响应中间件可以在收到响应后进行处理。

def process_response(self, request, response, spider):
    # 修改响应状态码
    response.status = 200
    return response

数据清洗与存储：管道

管道是 Scrapy 中用于数据清洗和存储的组件。管道可以用来清洗数据、去重、保存数据等。

数据清洗

def process_item(self, item, spider):
    # 清洗数据
    item['title'] = item['title'].strip()
    return item

数据存储

将数据保存到文件或数据库。例如，保存到 MongoDB：

from pymongo import MongoClient

class MongoDBPipeline:
    def __init__(self):
        self.client = MongoClient('localhost', 27017)
        self.db = self.client['mydatabase']

    def process_item(self, item, spider):
        self.db['mycollection'].insert(dict(item))
        return item

Scrapy高级技巧

跟踪爬取状态

使用 Scrapy 提供的 stats 组件可以跟踪爬取状态。

示例代码

from scrapy.spidermiddlewares.stats import SpiderStats

class MySpider(scrapy.Spider):
    name = "myspider"

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.stats = SpiderStats(self)

    def parse(self, response):
        # 跟踪爬取状态
        self.stats.inc_value('items_count')
        yield response.follow(href, self.parse_item)

使用Scrapy的下载器与调度器

下载器

下载器负责下载网页内容。可以通过设置 DOWNLOAD_DELAY 参数控制下载延迟，避免被封 IP。

DOWNLOAD_DELAY = 1  # 1秒延迟

调度器

调度器负责管理待爬取的 URL 和请求。可以通过 DEPTH_PRIORITY 参数设置优先级，优先爬取深度较小的 URL。

DEPTH_PRIORITY = 1

设置日志记录

LOG_ENABLED = True
LOG_FILE = 'scrapy.log'
LOG_LEVEL = 'DEBUG'

捕获异常和错误

def process_spider_exception(self, response, exception, spider):
    # 处理异常
    spider.logger.error(f"Spider error: {exception}")
    return None

实战演练：构建完整爬虫项目

选择目标网站

选择一个简单的网站作为示例，例如一个博客网站。假设该博客网站 URL 结构如下：

http://example.com/index.html
http://example.com/page/2/
http://example.com/page/3/
...

编写爬虫代码

爬虫文件

import scrapy

class BlogSpider(scrapy.Spider):
    name = "blogspider"
    start_urls = [
        'http://example.com/index.html',
    ]

    def parse(self, response):
        for title in response.css('h1.title a ::text').getall():
            yield {'title': title}

        for next_page in response.css('a.next ::attr(href)').getall():
            yield response.follow(next_page, self.parse)

中间件

class BlogMiddleware(scrapy.SpiderMiddleware):
    def process_spider_output(self, response, result, spider):
        for item in result:
            if isinstance(item, scrapy.Item):
                item['url'] = response.url
            yield item

管道

class BlogPipeline:
    def process_item(self, item, spider):
        item['title'] = item['title'].strip()
        return item

设置

ITEM_PIPELINES = {'myproject.pipelines.BlogPipeline': 300}

测试与部署

测试

使用 Scrapy 提供的命令进行测试：

scrapy crawl blogspider

部署

将爬虫部署到生产环境时，需要考虑以下几点：

设置日志记录。
捕获异常和错误。
使用 Scrapy 的定时任务功能。
配置 Scrapy 运行环境。

部署示例：

scrapy crawl blogspider -o items.json