Scrapy爬虫框架资料入门教程-原创手记-慕课网

概述

本文详细介绍了Scrapy爬虫框架的基本概念、优势、项目结构以及安装方法，提供了丰富的代码示例和实际应用案例，帮助读者快速掌握Scrapy爬虫框架的使用。文章还涵盖了Scrapy爬虫的高级功能，如调试与优化技巧，确保用户能够高效地开发和维护爬虫项目。通过阅读本文，读者可以全面了解Scrapy爬虫框架并应用于实际项目中。

一、Scrapy爬虫框架简介

1.1 Scrapy简介

Scrapy是一个用于抓取网站数据的Python库，主要用于构建爬虫。Scrapy提供了一套完整的工具，使得开发者能够快速地开发出高效、强大的网络爬虫。Scrapy设计用于处理大量数据，具有较强的可扩展性和灵活性，能够很好地处理各种复杂需求。

1.2 Scrapy的优势

高效率：Scrapy使用非阻塞异步网络库，支持并行下载，可以大幅度提高爬取效率。
强大的选择器：Scrapy内置了强大的XPath和CSS选择器，可以帮助开发者方便地解析数据。
模块化：Scrapy的设计高度模块化，可以根据需要灵活地添加或移除组件，使得维护和扩展变得容易。
灵活的中间件：Scrapy提供了丰富的中间件接口，可以用于处理cookies、session、代理等，方便开发者实现各种需求。
强大的过滤机制：Scrapy提供了强大的去重机制，可以避免重复抓取相同的数据。

1.3 Scrapy的基本概念

Scrapy框架由多个组件组成，这些组件通过定义明确的接口进行交互。以下是一些主要的组件和概念：

引擎（Engine）：引擎是Scrapy的核心组件，负责协调整个爬虫的执行流程，它会调用调度器、下载器、中间件等其他组件。
调度器（Scheduler）：调度器负责管理待抓取的URL队列，并根据优先级返回URL给引擎。
下载器（Downloader）：下载器负责发送HTTP请求并获取响应，然后将响应传递给引擎。
中间件（Middleware）：中间件用于处理请求和响应，在请求被下载器处理之前和响应被处理之前，中间件可以对它们进行修改或过滤。
蜘蛛（Spider）：蜘蛛是用户定义的类，用于定义爬取规则和提取数据。每种爬虫通常需要实现一个或多个蜘蛛。
管道（Pipeline）：管道用于处理和存储提取的数据，可以进行数据清洗、去重等操作。
选择器（Selector）：选择器是Scrapy内置的用于解析HTML和XML的工具，支持XPath和CSS选择器。
响应（Response）：响应是下载器从网络获取到的数据，包括HTML、JSON等，蜘蛛可以从中提取数据。

二、Scrapy环境搭建与安装

2.1 Python环境搭建

为了使用Scrapy，首先需要搭建一个Python环境。以下是搭建Python环境的步骤：

安装Python：访问Python官网下载Python安装包，安装过程中勾选“Add Python to PATH”选项。
验证安装：打开命令行工具，输入python --version，如果显示Python版本信息，则说明Python已成功安装。
安装pip：如果Python安装成功，pip也会自动安装。可以通过命令pip --version验证pip的安装情况。

2.2 安装Scrapy

安装Scrapy的方法如下：

打开命令行工具。
输入以下命令安装Scrapy：

pip install Scrapy

2.3 验证安装是否成功

安装完成后，可以通过以下命令来验证Scrapy是否安装成功：

打开命令行工具。
输入以下命令：

scrapy --version

如果成功安装，会显示出Scrapy的版本信息。

三、Scrapy爬虫的基本结构

3.1 项目结构介绍

Scrapy项目结构如下：

myproject/
│
├── myproject/
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   ├── spiders/
│   │   ├── __init__.py
│   │   ├── spider1.py
│   │   └── spider2.py
│
└── scrapy.cfg

myproject/items.py：定义项目中的数据模型，可以指定数据字段。
myproject/middlewares.py：定义中间件，用于处理请求和响应。
myproject/pipelines.py：定义管道，用于处理和存储提取的数据。
myproject/settings.py：配置项目的各种参数，例如下载延迟、HTTP请求头等。
myproject/spiders/：存放蜘蛛。
scrapy.cfg：项目配置文件。

3.2 编写第一个Scrapy爬虫

创建一个简单示例，从"https://quotes.toscrape.com/"网站中抓取一段名言。

在命令行工具中，进入期望的目录，创建Scrapy项目：

scrapy startproject myproject

# myproject/spiders/example_spider.py
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['https://quotes.toscrape.com/']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        for quote in response.css('div.quote'):
            text = quote.css('span.text::text').get()
            author = quote.css('span small::text').get()
            yield {
                'text': text,
                'author': author
            }

3.3 运行爬虫

scrapy crawl example

执行上述命令后，Scrapy会生成一个输出文件，其中包含爬取到的数据。

3.4 输出结果

爬虫运行成功后，会在控制台输出抓取到的数据，例如：

{'text': 'The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.', 'author': 'Albert Einstein'}
{'text': 'Be the reason someone smiles today.', 'author': 'Unknown'}
{'text': 'A day without sunshine is like, you know, night.', 'author': 'Steve Buscemi'}
{'text': 'A day without sunshine is like, you know, night.', 'author': 'Steve Buscemi'}

四、Scrapy爬虫的进阶使用

4.1 使用选择器

Scrapy内置了XPath和CSS选择器，可以方便地从HTML中提取数据。以下是使用选择器的示例：

# myproject/spiders/example_spider.py
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['https://quotes.toscrape.com/']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        for quote in response.css('div.quote'):
            text = quote.css('span.text::text').get()
            author = quote.css('span small::text').get()
            tags = quote.css('a.tag::text').getall()
            yield {
                'text': text,
                'author': author,
                'tags': tags
            }

4.2 处理Cookies和Sessions

Scrapy可以通过中间件来处理Cookies和Sessions。以下是如何设置Cookies的示例：

在myproject/middlewares.py中，添加以下代码：

# myproject/middlewares.py
import scrapy

class MyCustomMiddleware(object):
    def process_request(self, request, spider):
        request.cookies['session-id'] = '123456'
        return None

在myproject/settings.py中，启用中间件：

# myproject/settings.py
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyCustomMiddleware': 543,
}

4.3 使用中间件

中间件是在请求被下载器处理之前和响应被处理之前，可以对它们进行修改或过滤。以下是一个中间件的例子：

在myproject/middlewares.py中，添加以下代码：

# myproject/middlewares.py
import scrapy

class MyCustomMiddleware(object):
    def process_request(self, request, spider):
        print("Processing request:", request)
        return request

    def process_response(self, request, response, spider):
        print("Processing response:", response)
        return response

在myproject/settings.py中，启用中间件：

# myproject/settings.py
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyCustomMiddleware': 543,
}

4.4 Scrapy请求与响应

请求和响应是Scrapy中的两个重要概念。以下是如何处理请求和响应的示例：

# myproject/spiders/example_spider.py
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['https://quotes.toscrape.com/']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        for quote in response.css('div.quote'):
            text = quote.css('span.text::text').get()
            author = quote.css('span small::text').get()
            yield {
                'text': text,
                'author': author
            }

五、Scrapy爬虫的调试与优化

5.1 爬虫调试技巧

检查请求和响应：在myproject/middlewares.py中添加中间件，可以打印请求和响应的内容。
使用Scrapy shell：Scrapy shell提供了一个交互式环境，可以方便地测试选择器和请求。使用命令scrapy shell <url>，然后可以使用response.css()或response.xpath()测试选择器。
日志：在settings.py中设置LOG_LEVEL为DEBUG，可以查看详细的日志信息。

5.2 爬虫性能优化

并行下载：Scrapy使用非阻塞异步网络库，支持并行下载。可以通过设置CONCURRENT_REQUESTS来控制并发下载的数量，例如：
```
# myproject/settings.py
CONCURRENT_REQUESTS = 16
```
缓存：可以使用Scrapy的缓存机制来减少重复请求。在settings.py中设置CACHE_ENABLED为True：
```
# myproject/settings.py
CACHE_ENABLED = True
```
下载延迟：为了减少对目标网站的压力，可以在settings.py中设置DOWNLOAD_DELAY来设置下载延迟，例如：
```
# myproject/settings.py
DOWNLOAD_DELAY = 1
```

5.3 避免被网站封禁

设置User-Agent：模拟不同浏览器的请求头信息，可以避免被网站识别为爬虫。
使用代理服务器：使用代理服务器可以隐藏真实IP地址，避免被网站封禁。
调整下载延迟：合理设置DOWNLOAD_DELAY，减少对网站的访问频率。

六、Scrapy爬虫的实际应用

6.1 爬取网站数据案例

以下是一个爬取网站数据的示例，爬取豆瓣电影Top250榜单。

创建Scrapy项目：

scrapy startproject douban_movies

在douban_movies/spiders目录下创建一个Spider：

# douban_movies/spiders/douban_movies_spider.py
import scrapy

class DoubanMoviesSpider(scrapy.Spider):
    name = 'douban_movies'
    allowed_domains = ['movie.douban.com']
    start_urls = ['https://movie.douban.com/top250']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        for movie in response.css('.item'):
            title = movie.css('.title::text').get()
            rating = movie.css('.rating_num::text').get()
            yield {
                'title': title,
                'rating': rating
            }

6.2 数据存储

Scrapy中的管道可以用来处理和存储提取的数据。以下是如何将数据存储到文件中的示例：

在douban_movies/pipelines.py中，添加以下代码：

# douban_movies/pipelines.py
import json

class DoubanMoviesPipeline:
    def __init__(self):
        self.file = open('douban_movies.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        json.dump(dict(item), self.file, ensure_ascii=False, indent=4)
        self.file.write(',\n')
        return item

    def close_spider(self, spider):
        self.file.close()

在douban_movies/settings.py中启用管道：

# douban_movies/settings.py
ITEM_PIPELINES = {
    'douban_movies.pipelines.DoubanMoviesPipeline': 300,
}

6.3 实战演练：构建个人爬虫

本节将详细介绍如何构建一个个人Scrapy爬虫。

创建一个新的Scrapy项目：

scrapy startproject personal_spider

在personal_spider/spiders目录下创建一个Spider，命名为personal_spider.py，内容如下：

# personal_spider/spiders/personal_spider.py
import scrapy

class PersonalSpider(scrapy.Spider):
    name = 'personal'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # 示例：从HTML中提取数据
        title = response.css('h1::text').get()
        paragraphs = response.css('p::text').getall()
        yield {
            'title': title,
            'paragraphs': paragraphs
        }

安装Scrapy项目依赖：

cd personal_spider
pip install -r requirements.txt

运行爬虫：

scrapy crawl personal

通过以上步骤，可以创建一个有效的Scrapy爬虫，用于抓取网站数据。