猿问

Scrapy 没有使用 extract_first() 获得干净的文本

我正在尝试从网站上的许多跨度标签下抓取一些文本,但没有获得干净的文本,任何帮助将不胜感激!

这是网址:

https://www.example.com

这就是我正在尝试的

response.xpath('//div[@class="agency-header__address"]').extract_first()

预期输出:

Level 18, 25 Bligh Street, SYDNEY, NSW 2000


犯罪嫌疑人X
浏览 192回答 3
3回答

摇曳的蔷薇

您可以通过提取获得所需的文本字符串表示的div:response.xpath('string(//div[@class="agency-header__address"])').extract_first()

万千封印

您需要获取text()给定 xpath 中所有内容的 xpath。例如:result = response.xpath('//div[@class="agency-header__address"]//text()').extract()这将返回多个span元素,因此您必须使用extract(). 然后,您可以根据需要加入并清理它,例如:''.join(result).replace('\xa0', ' ')
随时随地看视频慕课网APP

相关分类

Python
我要回答