使用 BeautifulSoup 进行网页抓取时出现属性错误

我正在尝试使用 BeautifulSoup 和 Python 从“etherscan.io”中抓取数据。这是网站: https: //etherscan.io/txs

page_soups = []

for page in range(1, 51):

  url = 'https://etherscan.io/txs?p=' + str(page)

  print(url)

  req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})

  webpage = urlopen(req).read()

  page_soup = soup(webpage, "html.parser").find('tbody').find_all('a')

  page_soups += page_soup

我使用循环来抓取多个网页,但只能获取前 30 页的数据。第31条有错误

我检查该网页,发现它仍然具有与其他网页相同的标签和元素。请帮我。


qq_遁去的一_1
浏览 109回答 1
1回答

慕哥9229398

这是因为 Cloudflare,我在循环中添加了以下内容:if page%30 == 0:     time.sleep(20)显然,每 30 个页面等待 20 秒就足以不被标记为机器人。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python