继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Scrapy爬虫框架教程:初学者入门指南

翻过高山走不出你
关注TA
已关注
手记 240
粉丝 31
获赞 67
概述

本文详细介绍了Scrapy爬虫框架的安装步骤、基本结构、组件、高级使用技巧以及数据抓取、解析和存储等步骤。通过多个实战案例和调试技巧,帮助读者更好地理解和应用Scrapy爬虫框架。

Scrapy简介与安装
Scrapy是什么

Scrapy 是一个强大的、开源的 Python 爬虫框架。它主要用于数据挖掘、信息抓取与处理,支持高并发抓取,具备强大的扩展性和灵活性。Scrapy 因其高效、稳定、易于使用的特点受到广大开发者的喜爱。

Scrapy的优势

Scrapy 拥有以下几个明显的优势:

  1. 高效性:Scrapy 设计的理念是通过异步请求和使用 Twisted 库来实现高效的网络请求,能够显著提高爬虫的抓取速度。
  2. 灵活性与可扩展性:Scrapy 提供了丰富的组件和接口,用户可以根据需求灵活配置和扩展,以满足不同的爬虫需求。
  3. 强大的数据处理能力:Scrapy 提供了强大且灵活的数据提取和处理机制,包括XPath、CSS选择器等方法,使得数据处理更加便捷。
  4. 良好的社区支持:由于 Scrapy 的开源特性,它拥有庞大的社区支持和技术文档,便于学习和使用。
Scrapy的安装方法

Scrapy 的安装非常简单,可以通过 pip 来安装。以下是相应的安装命令:

pip install scrapy

安装完成后,您可以通过 Python 的命令行输入如下命令来检验 Scrapy 是否安装成功:

python -c "import scrapy; print(scrapy.__version__)"

如果安装成功,这将打印出 Scrapy 的版本号。

Scrapy的基本结构与组件
Scrapy项目的创建

创建一个 Scrapy 项目的过程是相当简单的。首先,确保您已经安装了 Scrapy。然后,您可以使用以下命令来创建一个新的 Scrapy 项目:

scrapy startproject myproject

这将创建一个名为 myproject 的目录,该目录包含 Scrapy 项目所需的目录和文件结构。

Scrapy项目的结构

一个 Scrapy 项目通常包含以下几个主要文件和目录:

  1. myproject:项目根目录。
  2. myspider.py:爬虫文件,位于 myproject/spiders 目录下。
  3. settings.py:项目的配置文件,位于 myproject/ 目录下。
  4. items.py:定义爬虫抓取的数据结构,位于 myproject/ 目录下。
  5. pipelines.py:数据处理管道文件,位于 myproject/ 目录下。

示例目录结构

假设您创建了一个名为 myproject 的 Scrapy 项目,那么它的目录结构大致如下:

myproject/
├── myproject/
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── spiders/
│       ├── __init__.py
│       └── myspider.py
└── scrapy.cfg

文件说明

  • myproject/spiders/myspider.py:这是实际的爬虫代码文件。您将在此文件中编写您的爬虫逻辑。
  • myproject/settings.py:包含项目级别的配置,如LOG设置、下载延迟等。
  • myproject/items.py:定义爬虫抓取的数据结构。
  • myproject/pipelines.py:定义数据处理管道,用于数据的清洗和存储。
Scrapy的主要组件介绍

Scrapy 项目由多个组件组成,包括:

  1. Spider:负责解析响应并抓取数据。
  2. Downloader:处理网络请求,向网站发送请求并接收响应。
  3. Scheduler:负责管理待处理的请求队列。
  4. Downloader middlewares:用于处理网络请求和响应。
  5. Item Pipeline:用于处理和存储抓取的数据。
  6. Spider middlewares:用于处理从 Spider 发出的数据。
  7. Selector:用于解析 HTML 或 XML 响应。

示例:创建一个简单的 Scrapy Spider

假设我们要创建一个简单的 Spider 来抓取一个网站上的标题。首先,您需要创建一个 Spider 类,如下所示:

# myproject/spiders/my_spider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        title = response.css('title').get()
        self.log(f'Got title: {title}')

上述代码定义了一个名为 MySpider 的 Spider,它会在 http://example.com 网站上抓取标题。

Scrapy爬虫的基本使用
编写第一个Scrapy爬虫

在创建了 Scrapy 项目后,您需要编写一个爬虫来抓取数据。假设我们要抓取一个简单的网站,其结构如下:

http://example.com/
    - News.html
    - About.html

这个网站的首页 http://example.com/ 包含了到 News.htmlAbout.html 的链接。每个页面都包含一些需要抓取的数据。

示例:创建一个简单的 Spider

首先,创建一个新的 Spider,如下所示:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com/',
    ]

    def parse(self, response):
        links = response.css('a::attr(href)').getall()
        for link in links:
            full_url = response.urljoin(link)
            yield scrapy.Request(full_url, callback=self.parse_page)

    def parse_page(self, response):
        title = response.css('title::text').get()
        yield {'title': title}

解释:

  • name:为 Spider 设置一个唯一的名称。
  • start_urls:包含 Scrapy 发起抓取的初始 URL 列表。
  • parse 方法:处理初始 URL 的响应,提取链接并生成新的请求。
  • parse_page 方法:处理实际数据页面,提取所需的数据,并返回提取的数据。

运行爬虫

一旦定义好 Spider,就可以通过 Scrapy 命令行工具运行它:

scrapy crawl myspider

这将执行您的爬虫并抓取数据。

URL的抓取与请求

在 Scrapy 中,URL 的抓取与请求是通过 Scrapy.Request 对象来实现的。当 Spider 发现需要抓取的 URL 时,它会生成一个新的 Request 对象,并将它发送到调度器。

示例:生成一个请求

在之前的示例中,我们使用了以下代码来生成一个新的请求:

full_url = response.urljoin(link)
yield scrapy.Request(full_url, callback=self.parse_page)

Scrapy.Request 对象包含以下属性:

  • url:请求的目标 URL。
  • callback:处理响应的回调函数。
  • meta:一个字典,用于传递额外的数据到回调函数。

爬取多个页面

假设您要抓取多个页面,并且每个页面都有一个共同的 URL 前缀,您可以使用 for 循环来生成多个请求:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        f'http://example.com/page_{i}' for i in range(1, 11)
    ]

    def parse(self, response):
        # 处理响应
        pass

上述代码生成了从 http://example.com/page_1http://example.com/page_10 的 10 个请求。

数据的提取与解析

Scrapy 提供了强大的数据提取和解析工具,如 XPath 和 CSS 选择器。这些工具用于从 HTML 或 XML 响应中提取所需的数据。

示例:使用 CSS 选择器

假设您要从 HTML 代码中提取文本内容,您可以使用 CSS 选择器:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        # 提取标题
        title = response.css('h1::text').get()
        # 提取段落
        paragraphs = response.css('p::text').getall()
        yield {'title': title, 'paragraphs': paragraphs}

示例:使用 XPath

除了 CSS 选择器,Scrapy 也支持 XPath 选择器:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        # 使用 XPath 提取标题
        title = response.xpath('//h1/text()').get()
        # 使用 XPath 提取段落
        paragraphs = response.xpath('//p/text()').getall()
        yield {'title': title, 'paragraphs': paragraphs}

示例:提取链接

假设您需要从 HTML 中提取链接,并且您希望每次抓取到一个新的链接时就生成一个新的请求:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        links = response.css('a::attr(href)').getall()
        for link in links:
            full_url = response.urljoin(link)
            yield scrapy.Request(full_url, callback=self.parse_page)

    def parse_page(self, response):
        # 提取页面内容
        title = response.css('title::text').get()
        yield {'title': title}

示例:处理 JSON 响应

如果您的网站返回 JSON 数据,您可以通过以下代码来处理:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com/api/data',
    ]

    def parse(self, response):
        data = response.json()
        for item in data['items']:
            yield item

上述代码假设返回的 JSON 数据包含一个名为 items 的数组,每个数组元素是一个字典,您可以直接使用 response.json() 将其转换为 JSON 格式并进行处理。

Scrapy进阶技巧
使用中间件

Scrapy 中间件是一个强大的功能,允许您在 Scrapy 的请求和响应处理过程中插入自定义逻辑。中间件分为两类:Downloader 中间件和Spider 中间件。

示例:Downloader 中间件的使用

假设您需要在每次发送 HTTP 请求之前修改请求的头部信息,可以使用 DownloaderMiddleware

# myproject/middlewares.py
from scrapy import signals

class MyDownloaderMiddleware(object):
    def process_request(self, request, spider):
        request.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36'
        return request

    def process_response(self, request, response, spider):
        # 处理响应
        return response

    def process_exception(self, request, exception, spider):
        # 处理异常
        pass

settings.py 中启用中间件:

# myproject/settings.py
DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.MyDownloaderMiddleware': 543,
}

示例:Spider 中间件的使用

假设您需要在每次解析响应之前修改响应对象,可以使用 SpiderMiddleware

# myproject/middlewares.py
from scrapy import signals

class MySpiderMiddleware(object):
    def process_spider_input(self, response, spider):
        # 处理响应输入
        return response

    def process_spider_output(self, response, result, spider):
        # 处理输出
        return result

    def process_spider_exception(self, response, exception, spider):
        # 处理异常
        pass

settings.py 中启用中间件:

# myproject/settings.py
SPIDER_MIDDLEWARES = {
    'myproject.middlewares.MySpiderMiddleware': 543,
}
处理Cookies与登录

有时您需要处理 Cookies 或登录到网站,以获取需要身份验证的数据。Scrapy 提供了多种方法来处理这些情况。

示例:处理 Cookies

假设您需要在请求中包含 Cookies:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def start_requests(self):
        cookies = {
            'session': '1234567890',
            'user': 'myuser',
        }
        for url in self.start_urls:
            yield scrapy.Request(url, cookies=cookies, callback=self.parse)

    def parse(self, response):
        pass

示例:登录到网站

假设您需要登录到网站,并且该网站使用表单提交来验证登录信息:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com/login',
    ]

    def start_requests(self):
        login_data = {
            'username': 'user',
            'password': 'pass',
        }
        for url in self.start_urls:
            yield scrapy.FormRequest(url, formdata=login_data, callback=self.after_login)

    def after_login(self, response):
        pass
Scrapy的调试与维护
Scrapy的日志与调试技巧

Scrapy 提供了丰富的日志系统,使您能够更好地调试和维护您的爬虫。

示例:开启日志输出

默认情况下,Scrapy 会开启基本的日志输出。如果您想启用更详细的日志,可以在 settings.py 中配置:

# myproject/settings.py
LOG_ENABLED = True
LOG_LEVEL = 'DEBUG'

示例:自定义日志记录

您也可以在爬虫代码中使用 self.log() 方法来记录日志:

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        self.log('解析到了一个页面')
        # 处理页面内容
Scrapy项目的优化与维护

Scrapy 项目在开发过程中可能会遇到各种问题,因此良好的项目管理和维护是非常重要的。

示例:优化请求

为了提高抓取速度和降低服务器负担,您可以对请求进行优化,例如设置下载延迟、设置请求的并发数等。

# myproject/settings.py
DOWNLOAD_DELAY = 1  # 每次下载的间隔时间
CONCURRENT_REQUESTS = 16  # 并发请求的数量

示例:管理 Cookies 和 Sessions

如果您的网站使用了 Sessions,确保您正确地处理了 Cookies。

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com/login',
    ]

    def start_requests(self):
        cookies = {
            'session': '1234567890',
            'user': 'myuser',
        }
        for url in self.start_urls:
            yield scrapy.Request(url, cookies=cookies, callback=self.after_login)

    def after_login(self, response):
        pass
常见错误及解决方案

在使用 Scrapy 时,可能会遇到一些常见的问题和错误。下面是一些常见错误及其解决方案:

示例:403 Forbidden 错误

当遇到 403 Forbidden 错误时,可能是由于被目标网站识别为爬虫而被阻止了访问。解决方案包括使用代理服务器、修改 User-Agent、模拟登录等。

# myproject/middlewares.py
from scrapy import signals
import random

class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        ua = random.choice([
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',
        ])
        request.headers['User-Agent'] = ua

示例:数据解析错误

如果您在解析页面时遇到问题,确保您的选择器正确无误,并检查目标网站的 HTML 结构是否发生了变化。

# myproject/spiders/myspider.py
import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = [
        'http://example.com',
    ]

    def parse(self, response):
        # 确保选择器正确
        title = response.css('h1::text').get()
        if not title:
            self.log('选择器可能有误')
        else:
            yield {'title': title}

示例:内存泄漏

如果您的项目内存占用过高,可以通过以下方法优化:

  • 减少不必要的请求。
  • 及时释放不再使用的资源。
  • 适当调整并发请求的数量。
# myproject/settings.py
CONCURRENT_REQUESTS = 16  # 适当减少并发请求的数量
Scrapy实战案例
实例网站爬虫编写

假设您要抓取一个简单的新闻网站,该网站包含新闻标题、发布日期和文章内容。以下是实现过程。

示例:定义 Item

首先,定义一个 Item 来存储抓取的数据:

# myproject/items.py
import scrapy

class NewsItem(scrapy.Item):
    title = scrapy.Field()
    date = scrapy.Field()
    content = scrapy.Field()

示例:编写 Spider

接下来,编写一个 Spider 来抓取新闻:

# myproject/spiders/myspider.py
import scrapy
from myproject.items import NewsItem

class NewsSpider(scrapy.Spider):
    name = 'news_spider'
    start_urls = [
        'http://example.com/news',
    ]

    def parse(self, response):
        for news in response.css('div.news'):
            item = NewsItem()
            item['title'] = news.css('h2::text').get()
            item['date'] = news.css('span.date::text').get()
            item['content'] = news.css('p::text').get()
            yield item

示例:处理数据

在抓取数据后,您可能需要对数据进行清洗和处理。您可以使用 Item Pipeline 来实现这一点:

# myproject/pipelines.py
import re

class CleanDataPipeline:
    def process_item(self, item, spider):
        for field in item.fields:
            item[field] = re.sub(r'\s+', ' ', item[field])
        return item

settings.py 中启用 Pipeline:

# myproject/settings.py
ITEM_PIPELINES = {
    'myproject.pipelines.CleanDataPipeline': 300,
}
数据的清洗与处理

在抓取数据后,您可能需要对数据进行清洗和处理。Scrapy 提供了多种方法来实现这一点,如使用 Item Pipeline 和自定义的数据处理函数。

示例:数据清洗

假设您需要清洗抓取的数据,例如去除多余的空格和换行符:

# myproject/pipelines.py
import re

class CleanDataPipeline:
    def process_item(self, item, spider):
        for field in item.fields:
            item[field] = re.sub(r'\s+', ' ', item[field])
        return item

示例:数据验证

您可能还需要验证数据的一致性和完整性。例如,检查日期格式是否正确:

# myproject/pipelines.py
from datetime import datetime

class ValidateDataPipeline:
    def process_item(self, item, spider):
        try:
            datetime.strptime(item['date'], '%Y-%m-%d')
        except ValueError:
            raise DropItem(f"Invalid date: {item['date']}")
        return item
结果的展示与分析

一旦您抓取并处理了数据,接下来可以将其展示和分析。您可以将数据存储到数据库中,或者使用可视化工具进行分析。

示例:将数据存储到数据库

假设您希望将抓取的数据存储到 MySQL 数据库中:

# myproject/pipelines.py
import pymysql

class MySQLPipeline:
    def open_spider(self, spider):
        self.conn = pymysql.connect(
            host='localhost',
            user='root',
            password='password',
            db='scrapydb',
            charset='utf8mb4',
            cursorclass=pymysql.cursors.DictCursor
        )
        self.cursor = self.conn.cursor()

    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

    def process_item(self, item, spider):
        sql = 'INSERT INTO news (title, date, content) VALUES (%s, %s, %s)'
        self.cursor.execute(sql, (item['title'], item['date'], item['content']))
        self.conn.commit()
        return item

settings.py 中启用 Pipeline:

# myproject/settings.py
ITEM_PIPELINES = {
    'myproject.pipelines.MySQLPipeline': 300,
}

示例:使用可视化工具分析数据

您可以使用像 Tableau 或 Python 的可视化库(如 Matplotlib 和 Seaborn)来分析抓取的数据。例如,使用 Matplotlib 绘制新闻的发布日期分布图:

import matplotlib.pyplot as plt

# 假设 data 是从数据库中获取的数据
dates = [datetime.strptime(item['date'], '%Y-%m-%d') for item in data]

plt.hist(dates, bins=20)
plt.xlabel('日期')
plt.ylabel('数量')
plt.title('新闻发布日期分布')
plt.show()
打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP