在parse()Scrapy Spider的方法中,我们可以使用css()on方法response来抓取需要的信息。例如,我们可以使用response.css("#container")来获取以下 HTML 片段。
<div id="container">
<div class="sep">test</div>
...
</div>
在保存到磁盘之前,我们如何更改部分 HTML 代码片段?例如,我想更改<div class="sep">to的文本内容1234,以便最终需要的 HTML 片段看起来像
<div id="container">
<div class="sep">1234</div>
...
</div>
我知道我可以将原始 HTML 片段保存在磁盘上,然后使用 HTML 解析器来更改它。然而,这实际上会再次解析它,因为它已经在Scrapy 蜘蛛中的方法response的参数中被解析了。parse()我查看了Scrapy文档,只能找到从页面获取信息的方法。如何进行集合运算?
慕慕森
相关分类