Scrapy 没有使用 extract_first() 获得干净的文本

我正在尝试从网站上的许多跨度标签下抓取一些文本，但没有获得干净的文本，任何帮助将不胜感激！

这是网址：

https://www.example.com

这就是我正在尝试的

response.xpath('//div[@class="agency-header__address"]').extract_first()

预期输出：

Level 18, 25 Bligh Street, SYDNEY, NSW 2000

犯罪嫌疑人X

浏览 260回答 3

3回答

摇曳的蔷薇

您可以通过提取获得所需的文本字符串表示的div：response.xpath('string(//div[@class="agency-header__address"])').extract_first()

万千封印

您需要获取text()给定 xpath 中所有内容的 xpath。例如：result = response.xpath('//div[@class="agency-header__address"]//text()').extract()这将返回多个span元素，因此您必须使用extract(). 然后，您可以根据需要加入并清理它，例如：''.join(result).replace('\xa0', ' ')

随时随地看视频慕课网APP