python正则爬虫无响应

首页课程实战体系课手记专栏慕课教程

python正则爬虫无响应

import requests

import re

content = requests.get('https://book.douban.com/').text

pattern=re.compile('<li.*?"cover".*?href=(.*?)title=(.*?).*"author">(.*?)</div>.*"year">(.*?)</span></li>',re.S)

results = re.findall(pattern, content)

for result in results:

url, name, author, date = result

author = re.sub('\s', '', author)

date = re.sub('\s', '', date)

print(url, name, author, date)

无响应，大家能告诉我什么原因吗？谢谢啦。

不负相思意

浏览 1506回答 2

2回答

qq_花开花谢_0

.*太多了，算法的时间太长result = re.findall(pattern, content[15000:20000]) # 这个都是秒级的了，何况content长度134383而且时间复杂度非线性 5000长度，3~4秒 134383长度，估计你跑一天能出来建议分步正则，一次最好不要超过两个.*，一步一步匹配出你要的结果

1 0

弑天下

我觉得你要是想爬些数据的话，还是不要这么爬了，另外豆瓣有api的。

0 0

随时随地看视频慕课网APP