请问一下,爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题?

爬虫小白问个不知道关于scrapy爬取json动态生成列表的问题


catspeake
浏览 901回答 3
3回答

HUWWW

对于只是读取某几个网站更新内容的爬虫完全没必要在python代码中实现增量的功能,直接在item中增加Url字段。 item['Url'] = response.url 然后在数据端把储存url的column设置成unique。 之后在python代码中捕获数据库commit

aluckdog

试试这个def start_requests(self):script = """function main(splash)splash:set_viewport_size(1028, 10000)splash:go(splash.args.url)local scroll_to = splash:jsfunc("window.scrollTo")scroll_to(0, 2000)splash:wait(15)return {html = splash:html()}end"""for url in self.start_urls:yield Request(url,callback=self.parse_info_index,meta = {'dont_redirect': True,'splash':{'args':{'lua_source':script,'images':0},'endpoint':'execute',}})
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python
ZBrush