python3爬虫正则表达式卡顿

首页课程实战体系课手记专栏慕课教程

python3初学者，练习使用爬虫抓取网页，随机找了个小说网站抓取，抓取html源代码没有问题，但是使用正则表达式，出现抓取数据后直接卡死，请问如何调试？

import urllib.request

import re

url = 'http://book.669977.net/xiuxiankuangtu/chapter.html'

response = urllib.request.urlopen(url)

html = response.read().decode('gbk')

url_number = re.findall('href="(/\w{5,20}/\d{3,8})',html)

print(url_number)

慕运维8079593

浏览 1226回答 2

守着一只汪

你print的数据太大，你把你print去掉试试。任何一门的语言输出都是一样的，输出的数据量太大都会有可能造成卡顿。

0 0

梦里花落0921

print(url_number[:10]) 改成这样，只显示前10个数据。这是 idle 的bug，要显示太多字符时，会卡死。 它似乎将所有的字符都当成python代码，试图格式化显示它们。

0 0

随时随地看视频慕课网APP