Python最火爬虫框架Scrapy入门与实践_技术笔记

慕先生3542332 2021-03-30

代码和注释

截图
0赞 · 0采集

PHe 2020-07-16

content_s = ''
for i_content in content:
    #去掉空格并连接
    content_s += "".join(i_content.split())

douban_item['introduce'] = content_s

0赞 · 0采集

ciicjsb 2020-06-07

111111111111111

截图
0赞 · 0采集
ciicjsb 2020-06-07

编写解析文件

截图
0赞 · 0采集
ciicjsb 2020-06-07

11111111111111

截图
0赞 · 0采集
慕莱坞6401844 2020-04-29

数据爬取和解析

截图
0赞 · 0采集
Superman007 2020-02-22

第一次抓取

截图
0赞 · 0采集
慕容3358288 2020-02-03

4461231

截图
0赞 · 0采集
慕容3358288 2020-02-03

45464546

0赞 · 0采集
YogurtJ 2019-10-22

当在spider模块中有需要解析的新的URL请求时
yield scrapy.Request(url, callback = self.parse)

截图
0赞 · 0采集
qq_慕码人7171263 2019-09-04

xpath:
以// 开头，后面接关键字，然后加中括号，中括号内第一字符是@。
/P
from ***.items import ***item

0赞 · 0采集

默党 2019-07-20

l = len(content)
for i in range(l):
    for j in range(i+1,l):
        content_s = "".join(content[i].split())+" "+"".join(content[j].split())
        douban_item['introduce'] = content_s
        print(douban_item)

现在豆瓣还追加了导演会导致每个类有两行

我的代码可以让它们合并为一行

1赞 · 0采集

Anynothing 2018-12-30

'/text()' 解析文本信息

截图
0赞 · 0采集
Anynothing 2018-12-30

输入“.”进一步细分接下来的xpath

截图
0赞 · 0采集
CasparMa 2018-12-18

在content=i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text").extract()
for i_content in content:
content_s = "".join(i_content.split())，，，后面省略
在视频中没有.extract()，本机ubuntu16+python3环境，运行提示没有split属性。必须加上extract()才可以

0赞 · 0采集
Westen 2018-12-16

Scrapy框架构成

截图
1赞 · 0采集

JustDoItImooc 2018-11-15

class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    allowed_domains = ['movie.douban.com']
    start_urls = ['http://movie.douban.com/top250']

    # 默认的解析方法
    def parse(self, response):
        movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")
        for i_item in movie_list:
            douban_item = DoubanItem()
            douban_item['serial_number'] = i_item.xpath(".//div[@class='item']//em/text()").extract_first()
            douban_item['movie_name'] = i_item.xpath(
                ".//div[@class='info']/div[@class='hd']/a/span[1]/text()").extract_first()
            content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
            for i_content in content:
                content_s = ''.join(i_content.split())
                douban_item['introduce'] = content_s
            douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            douban_item['evaluate'] = i_item.xpath(".//div[@class='star']/span[4]/text()").extract_first()
            douban_item['describe'] = i_item.xpath(".//p[@class='quote']//span/text()").extract_first()
            yield douban_item

        # 解析下一页规则，取的后页的xpath
        next_link = response.xpath("//span[@class='next']/link/@href").extract()
        if next_link:
            next_link = next_link[0]
            yield scrapy.Request('http://movie.douban.com/top250' + next_link, callback=self.parse)

0赞 · 3采集

家星 2018-10-16
douban_item['evaluate']=i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
这里的span[4]是指<div class='star'>下第4个span也就是<span>xxx人评价这行
同理，可将douban_item['star']=i_item.xpath(".//div[@class='star']//span[@class='rating_num']/text()").extract_first()修改成douban_item['star']=i_item.xpath(".//div[@class='star']//span[2]/text()").extract_first()，结果一致
截图
0赞 · 0采集

OKIDD 2018-08-27

from scrapy import cmdine
cmdline.execute('scrapy crawl douban_spider')

截图

0赞 · 0采集

筑雅 2018-08-03

content = i_item.xpath(".//div[@class='info']/div[@class='bd']/p[1]/text()").extract() content_arr = [] for content_i in content: content_e = "".join(content_i.split()) content_arr.append(content_e) content_all = "".join(content_arr) item['movie_content'] = content_all

0赞 · 0采集
KahoYip 2018-07-20

douban_spider.py
完成parse部分
循环条目
导入item文件
写xpath，解析内容
多行数据处理
将数据yield到pipelines
解析下一页规则，取后页的xpath，有则回调

0赞 · 0采集
心风流 2018-07-08

cmdline.execute('scrapy crawl douban_spider'.split())

0赞 · 0采集

数据加载中...