刮表没有提供结果

我以为我现在已经很好地掌握了这一点,但我又遇到了一个问题。


我没有得到这样的结果 - 但是如果我将产量移回一个标签 - 我会得到可疑的前两个项目。


这是日志的一个小片段:


2019-01-07 20:00:16 [scrapy.extensions.logstats] INFO: Crawled 1 pages (at 1 

pages/min), scraped 0 items (at 0 items/min)

2019-01-07 20:00:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET 

https://www.mysite.no.html?dest_id=-263870;checkin=2019-02-01;checkout=2019- 

02-02;group_adults=1 via http://localhost:8050/render.html> (referer: None)

这是函数:


    def parse(self, response):  

    item = klekkenItem()

    item['skaptdato'] = datetime.datetime.now()

    url_en = response.url # Henter urlen

    resultat = urlparse(url_en).query.split('=')[-3]  # Plukker ut deler av urlen

    nytt_resultat = resultat.split(';',1)[0] # plukker ut første del av resultatet

    fradatoen = ''.join(nytt_resultat) # gjør om datoen til en streng

    item['fradato'] = datetime.datetime.strptime(fradatoen, '%Y-%m-%d') # Konverterer til datoformat                

    tabellen = response.css('td.hprt-table-cell-roomtype')      

    for room in tabellen:

        romnavnet = room.css('span.hprt-roomtype-icon-link::text').get()    

        item['romnavn'] = romnavnet.strip() 

        yield item

这是[页面][1]的链接


顺便说一句:我已经四次检查了我的标签(五次)......


我错过了什么?任何人?我确定这是一个盲点。


紫衣仙女
浏览 216回答 2
2回答

精慕HU

尝试使用生成器:def parse(self, response):&nbsp; &nbsp; pass # your implementationres = self.parse(some_response)&nbsp; # it's a generator, lazy..for i in res:&nbsp; &nbsp;print(i) # should consume the generator and print

慕田峪9158850

tabellen = response.css('td.hprt-table-cell-roomtype')romnavnet = room.css('span.hprt-roomtype-icon-link::text').extract()&nbsp; &nbsp; #use extract function or `extract_first()`这个给你 4 行,而第一个是多余的,其他三个有数据。您不需要使用 splash 来获取这些数据。它在网页上静态可用。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python