继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Scrapy入门:初学者必看的简单教程

烙印99
关注TA
已关注
手记 376
粉丝 92
获赞 446
概述

Scrapy是一款强大的网络爬虫框架,广泛应用于数据抓取和信息提取。本文将详细介绍Scrapy的安装、基本结构、语法以及中间件的使用,帮助读者快速掌握Scrapy入门知识。

Scrapy简介与安装

Scrapy是什么

Scrapy是一个用于抓取网站并从网页中提取结构化数据的爬虫框架。它被广泛应用于数据挖掘、信息收集和自动化测试等领域。Scrapy具有强大的需求解析能力,支持灵活的数据提取方法,并且提供了丰富的中间件和管道功能,使得爬虫编写更加方便和高效。

Scrapy的优点

  1. 高性能:Scrapy内置了异步处理机制,可以同时处理多个请求,实现高效的数据抓取。
  2. 易扩展性:Scrapy的设计高度模块化,便于添加自定义中间件和管道,使得爬虫功能可以灵活扩展。
  3. 内置中间件和管道:Scrapy自带丰富的中间件和管道,可以轻松实现数据的清洗、存储和转发。
  4. 强大的数据提取能力:Scrapy提供了XPath和CSS选择器,支持灵活的数据提取方法,能够方便地从HTML中提取所需信息。
  5. 支持多种存储方式:Scrapy支持将抓取的数据存储到不同的后端,如MySQL、MongoDB等数据库,或保存为CSV、JSON等格式。

Scrapy的安装步骤

  1. 安装Python:确保已经安装了Python环境。Scrapy支持Python 3.6 及以上版本。

  2. 安装Scrapy:使用pip命令安装Scrapy。

    pip install scrapy
  3. 验证安装:可以通过运行scrapy命令来验证是否安装成功。
    scrapy --version

Scrapy的基本结构

Scrapy项目的创建

  1. 创建Scrapy项目
    使用scrapy startproject命令创建一个新的Scrapy项目。

    scrapy startproject my_project

    这将生成一个名为my_project的目录,里面包含Scrapy项目的结构。

  2. Scrapy项目的目录结构

    • my_project/:项目的根目录。

      • my_project/:Scrapy项目的核心代码。
      • settings.py
        # settings.py
        BOT_NAME = 'my_project'
        SPIDER_MODULES = ['my_project.spiders']
        NEWSPIDER_MODULE = 'my_project.spiders'
      • items.py

        # items.py
        import scrapy
        
        class MyProjectItem(scrapy.Item):
         title = scrapy.Field()
         url = scrapy.Field()
         description = scrapy.Field()
      • pipelines.py
        # pipelines.py
        class MyProjectPipeline:
         def process_item(self, item, spider):
             # 处理数据逻辑
             return item
      • spiders/:包含爬虫代码。
      • my_project/__init__.py:初始化文件,标识Python包。
      • my_project/__main__.py:主入口文件。
      • my_project/middlewares.py:自定义的中间件。
      • my_project/spiders.py:包含爬虫代码。
      • my_project/utils/:自定义工具和库。
  3. Scrapy爬虫的编写
    spiders目录下创建一个新的Python文件,例如my_spider.py,并定义一个爬虫类。

    # my_project/spiders/my_spider.py
    import scrapy
    
    class MySpider(scrapy.Spider):
       name = 'my_spider'
       allowed_domains = ['example.com']
       start_urls = ['http://example.com']
    
       def parse(self, response):
           pass

Scrapy的爬虫语法

XPath和CSS选择器

XPath和CSS选择器是Scrapy中用于从HTML中提取数据的强大工具。

  1. XPath选择器
    XPath是一种强大的XML查询语言,可以用来从XML文档中提取数据。Scrapy的XPath选择器可以用来抓取HTML文档中的数据。

    # a标签中的href属性
    response.xpath('//a/@href').extract()
    
    # 获取所有div标签中的文本
    response.xpath('//div/text()').extract()
  2. CSS选择器
    CSS选择器是一种简洁的语法,用于选择和提取HTML文档中的元素。Scrapy的CSS选择器可以用来抓取HTML文档中的数据。

    # 获取所有div标签中的文本
    response.css('div::text').get()
    
    # 获取所有a标签的href属性
    response.css('a::attr(href)').getall()

如何使用Scrapy爬取网页

  1. 定义爬虫
    在爬虫类中定义start_urls列表,指出爬虫开始爬取的URL。

    class MySpider(scrapy.Spider):
       name = 'my_spider'
       allowed_domains = ['example.com']
       start_urls = ['http://example.com']
  2. 解析网页
    在爬虫类中定义parse方法,该方法用于解析响应,并从中提取数据。

    def parse(self, response):
       # 提取数据
       for item in response.css('div.item'):
           yield {
               'title': item.css('h2::text').get(),
               'url': item.css('a::attr(href)').get(),
           }
    
       # 分析链接,找到下一页
       next_page = response.css('a.next::attr(href)').get()
       if next_page is not None:
           yield response.follow(next_page, self.parse)

Scrapy的中间件与下载器

Scrapy中间件的概念

Scrapy中间件是位于引擎和下载器之间的钩子,可以修改请求或响应,也可以自定义逻辑。Scrapy提供了多种类型的中间件,包括:

  1. 请求中间件:处理请求的中间件。
  2. 响应中间件:处理响应的中间件。
  3. 异常处理中间件:处理异常的中间件。
  4. 下载器中间件:处理下载器请求的中间件。
  5. 调度器中间件:处理调度器请求的中间件。

Scrapy下载器的使用

下载器是Scrapy的核心组件之一,负责从网络上获取网页数据。下载器可以与中间件配合使用,以实现更复杂的功能。

  1. 定义下载器中间件

    # my_project/middlewares.py
    import scrapy
    
    class MyDownloaderMiddleware:
       def process_request(self, request, spider):
           # 在请求发送前处理请求
           return None
    
       def process_response(self, request, response, spider):
           # 在请求返回后处理响应
           return response
  2. 启用下载器中间件
    settings.py文件中启用自定义的下载器中间件。
    # my_project/settings.py
    DOWNLOADER_MIDDLEWARES = {
       'my_project.middlewares.MyDownloaderMiddleware': 543,
    }

Scrapy的实践项目

一个简单的Scrapy爬虫实例

假设我们要抓取一个网站的新闻列表,可以按照以下步骤来编写爬虫。

  1. 安装依赖库

    pip install scrapy
  2. 创建Scrapy项目

    scrapy startproject news_spider
  3. 定义爬虫

    # news_spider/spiders/news_spider.py
    import scrapy
    
    class NewsSpider(scrapy.Spider):
       name = 'news_spider'
       allowed_domains = ['techcrunch.com']
       start_urls = ['http://techcrunch.com/']
    
       def parse(self, response):
           for article in response.css('article'):
               yield {
                   'title': article.css('h2::text').get(),
                   'url': article.css('a::attr(href)').get(),
               }
           next_page = response.css('a.next::attr(href)').get()
           if next_page:
               yield response.follow(next_page, self.parse)
  4. 运行爬虫
    scrapy crawl news_spider

Scrapy爬虫项目的优化

  1. 使用管道处理数据
    我们可以定义一个管道类来处理抓取的数据。

    # news_spider/pipelines.py
    class NewsPipeline:
       def process_item(self, item, spider):
           item['title'] = item['title'].strip()
           return item
  2. 启用管道
    settings.py中启用管道。
    # news_spider/settings.py
    ITEM_PIPELINES = {
       'news_spider.pipelines.NewsPipeline': 300,
    }

Scrapy的常见问题与解决方案

常见错误与解决方法

  1. No Module Named 'scrapy'
    如果安装了Scrapy但仍然遇到此错误,可以尝试重新安装Scrapy。

    pip uninstall scrapy
    pip install scrapy
  2. Scrapy Spider中无法解析内容
    检查XPath或CSS选择器是否正确,或者页面可能动态加载内容,这时需要使用Selenium等工具加载JavaScript。

    from scrapy import Spider
    from selenium import webdriver
    
    class MySpider(Spider):
       name = 'my_spider'
       allowed_domains = ['example.com']
       start_urls = ['http://example.com']
    
       def parse(self, response):
           driver = webdriver.Chrome()
           driver.get(response.url)
           html = driver.page_source
           driver.quit()
           response = scrapy.Selector(text=html)
           # 使用XPath或CSS选择器解析数据

Scrapy的性能优化

  1. 使用并发
    Scrapy内置了异步处理机制,可以同时处理多个请求,实现高效的数据抓取。

    # settings.py
    CONCURRENT_REQUESTS = 16
    CONCURRENT_REQUESTS_PER_DOMAIN = 8
  2. 自定义下载延迟
    如果某些网站对请求频率有限制,可以设置下载延迟。

    # settings.py
    DOWNLOAD_DELAY = 1
  3. 使用缓存
    可以通过设置缓存来减少对网站的访问频率,提高抓取效率。
    # settings.py
    HTTPCACHE_ENABLED = True
    HTTPCACHE_EXPIRATION_SECS = 60 * 60
    HTTPCACHE_DIR = 'httpcache'

通过以上内容,您可以了解Scrapy的基本使用方法,以及如何通过中间件和管道进行更复杂的操作。在实际项目中,这些知识将帮助您更高效地实现数据抓取任务。

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP