爬虫代码内容有疑问

来源:2-7 spider文件的编写(2)

Jack_大卫

2019-08-10 11:37

content = i_item.xpath("//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
for i_content in content:
    content_s = "".join(i_content.split())
    douban_item['introduce'] = content_s

老师这个地方的content获取的是50个段落,for循环的结果就是每一个douban_item['introduce']的赋值都只是遍历的最后一行“2011 / 法国 / 剧情 喜剧”,况且应该50个段落内容分成25份,每2个段落是一个内容

写回答 关注

1回答

  • 慕的地8021373
    2019-09-10 18:17:12
    content = i_item.xpath('.//div[@class="info"]/div/p[1]/text()').extract()
    这样子写试试,xpath不要太依赖别人怎么写,试着自己简便下

Python最火爬虫框架Scrapy入门与实践

做为爬虫工程师Python Scrapy主流爬虫框架你必须要会!

67418 学习 · 223 问题

查看课程

相似问题