继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Scrapy入门指南:轻松构建网络爬虫

MYYA
关注TA
已关注
手记 457
粉丝 75
获赞 327
概述

Scrapy是一个强大的Python网络爬虫框架,主要用于抓取网站数据并解析HTML、XML等文本。它具有异步处理、多种数据存储支持和强大的扩展性等特性,使得开发者可以快速构建高效的爬虫。本文将详细介绍Scrapy的安装方法、基本架构、项目创建及配置等内容。

Scrapy简介及安装

Scrapy是什么

Scrapy 是一个 Python 语言编写的强大的网络爬虫框架,它主要用于抓取网站数据并解析 HTML、XML 等文本。Scrapy 的设计目标是用于抓取网站并从页面信息中提取结构化的数据,而其强大的功能使其成为处理大规模数据抓取的理想工具。Scrapy 包括了异步处理、内置支持多种数据存储方式、强大的扩展性等特性,使得开发者可以快速构建出高效的爬虫。

Scrapy的基本架构

Scrapy 采用组件化架构,包括以下主要组件:

  • 引擎 (Scrapy Engine):负责控制数据流(从开始到结束),并调用其他组件。
  • 调度器 (Scheduler):负责存储并获取待抓取的 URL。
  • 下载器 (Downloader):负责从网站下载数据。
  • 中间件 (Middleware):可以在请求和响应之间插入处理逻辑。
  • 管道 (Pipeline):负责处理存储爬取的数据。
  • 爬虫 (Spider):负责定义爬取逻辑和提取数据。
  • 选择器 (Selector):用于解析响应内容。

此外,Scrapy 还包括设置(Settings)和命令行工具(Command Line),用于配置 Scrapy 的行为和执行各种任务。

Scrapy的安装方法

Scrapy 依赖于 Python 3 环境。可以在本地安装 Python 3,或者在虚拟环境中安装 Python 3 和 Scrapy。以下是安装步骤:

  1. 安装 Python 3
# 先检查是否已安装 Python 3
python3 --version

# 如果未安装,可以使用以下命令安装(适用于 Debian/Ubuntu 系统)
sudo apt-get update
sudo apt-get install python3
  1. 安装 Scrapy
pip install scrapy
创建Scrapy项目

使用命令行创建项目

使用命令行创建 Scrapy 项目的步骤如下:

  1. 打开命令行工具,输入以下命令创建新项目:
scrapy startproject myproject
  1. 进入项目目录:
cd myproject

项目结构解析

创建项目后,会生成如下的项目结构:

myproject/
    scrapy.cfg            # 项目配置文件
    myproject/            # 项目名称
        __init__.py
        items.py          # 定义爬取的数据结构
        middlewares.py    # 定义中间件
        pipelines.py      # 定义管道
        settings.py       # 项目设置
        spiders/          # 爬虫目录
            __init__.py
            myspider.py   # 爬虫文件
  • scrapy.cfg:Scrapy 项目的配置文件,包括项目的名称和版本等信息。
  • myproject:项目根目录,包含多个子目录和文件。
  • myproject/items.py:定义爬取的数据结构。
  • myproject/middlewares.py:定义中间件。
  • myproject/pipelines.py:定义管道。
  • myproject/settings.py:项目设置,包括配置参数等。
  • myproject/spiders/:存放爬虫文件的目录。
  • myproject/spiders/myspider.py:定义爬虫逻辑的文件。

定义爬虫规则

myspider.py 文件中定义爬虫,需要继承 scrapy.Spider 类。下面是一个简单的爬虫示例:

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        for href in response.css('div.content a ::attr(href)'):
            yield response.follow(href, self.parse_item)

    def parse_item(self, response):
        item = {}
        # 提取数据
        item['title'] = response.css('h1.title ::text').get()
        item['content'] = response.css('div.content ::text').get()
        return item

数据提取与选择器

Scrapy 使用选择器来解析 HTML 和 XML 文档,常用的有 XPath 和 CSS 选择器。

使用XPath和CSS选择器

选择器是 Scrapy 中用于提取数据的核心工具。Scrapy 以 Python 标准库中的 lxml 库为基础提供了丰富的选择器功能。

XPath 示例
response.xpath('//div[@class="item"]/a/text()').get()
CSS 示例
response.css('div.item a ::text').get()

实践案例解析

假设我们有一个简单的 HTML 文件,内容如下:

<html>
<body>
<div class="container">
    <h1>标题</h1>
    <div class="content">
        <p>段落1</p>
        <p>段落2</p>
    </div>
</div>
</body>
</html>

我们希望从中提取标题和段落内容,代码如下:

import scrapy

class SimpleSpider(scrapy.Spider):
    name = "simple_spider"
    start_urls = ['http://example.com']

    def parse(self, response):
        title = response.css('h1 ::text').get()
        paragraphs = response.css('div.content p ::text').getall()
        print("Title:", title)
        print("Paragraphs:", paragraphs)
Scrapy中间件与管道

使用中间件处理请求与响应

Scrapy 中间件是一套组件,可以在请求和响应之间插入逻辑。中间件可以用来处理请求、响应、下载错误、下载器中间件和调度器中间件等。

请求中间件

请求中间件可以修改发送到网站的请求,例如添加代理、设置请求头等。

def process_request(self, request, spider):
    # 添加代理
    request.meta['proxy'] = 'http://example.com:8888'
    return request

响应中间件

响应中间件可以在收到响应后进行处理。

def process_response(self, request, response, spider):
    # 修改响应状态码
    response.status = 200
    return response

数据清洗与存储:管道

管道是 Scrapy 中用于数据清洗和存储的组件。管道可以用来清洗数据、去重、保存数据等。

数据清洗

def process_item(self, item, spider):
    # 清洗数据
    item['title'] = item['title'].strip()
    return item

数据存储

将数据保存到文件或数据库。例如,保存到 MongoDB:

from pymongo import MongoClient

class MongoDBPipeline:
    def __init__(self):
        self.client = MongoClient('localhost', 27017)
        self.db = self.client['mydatabase']

    def process_item(self, item, spider):
        self.db['mycollection'].insert(dict(item))
        return item
Scrapy高级技巧

跟踪爬取状态

使用 Scrapy 提供的 stats 组件可以跟踪爬取状态。

示例代码

from scrapy.spidermiddlewares.stats import SpiderStats

class MySpider(scrapy.Spider):
    name = "myspider"

    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
        self.stats = SpiderStats(self)

    def parse(self, response):
        # 跟踪爬取状态
        self.stats.inc_value('items_count')
        yield response.follow(href, self.parse_item)

使用Scrapy的下载器与调度器

下载器

下载器负责下载网页内容。可以通过设置 DOWNLOAD_DELAY 参数控制下载延迟,避免被封 IP。

DOWNLOAD_DELAY = 1  # 1秒延迟

调度器

调度器负责管理待爬取的 URL 和请求。可以通过 DEPTH_PRIORITY 参数设置优先级,优先爬取深度较小的 URL。

DEPTH_PRIORITY = 1

设置日志记录

LOG_ENABLED = True
LOG_FILE = 'scrapy.log'
LOG_LEVEL = 'DEBUG'

捕获异常和错误

def process_spider_exception(self, response, exception, spider):
    # 处理异常
    spider.logger.error(f"Spider error: {exception}")
    return None
实战演练:构建完整爬虫项目

选择目标网站

选择一个简单的网站作为示例,例如一个博客网站。假设该博客网站 URL 结构如下:

http://example.com/index.html
http://example.com/page/2/
http://example.com/page/3/
...

编写爬虫代码

爬虫文件

import scrapy

class BlogSpider(scrapy.Spider):
    name = "blogspider"
    start_urls = [
        'http://example.com/index.html',
    ]

    def parse(self, response):
        for title in response.css('h1.title a ::text').getall():
            yield {'title': title}

        for next_page in response.css('a.next ::attr(href)').getall():
            yield response.follow(next_page, self.parse)

中间件

class BlogMiddleware(scrapy.SpiderMiddleware):
    def process_spider_output(self, response, result, spider):
        for item in result:
            if isinstance(item, scrapy.Item):
                item['url'] = response.url
            yield item

管道

class BlogPipeline:
    def process_item(self, item, spider):
        item['title'] = item['title'].strip()
        return item

设置

ITEM_PIPELINES = {'myproject.pipelines.BlogPipeline': 300}

测试与部署

测试

使用 Scrapy 提供的命令进行测试:

scrapy crawl blogspider

部署

将爬虫部署到生产环境时,需要考虑以下几点:

  • 设置日志记录。
  • 捕获异常和错误。
  • 使用 Scrapy 的定时任务功能。
  • 配置 Scrapy 运行环境。

部署示例:

scrapy crawl blogspider -o items.json
打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP