使用 BeautifulSoup 进行基本的 Python 网页抓取

我对编码很陌生，最近我开始研究网络抓取。我一直在关注本教程并阅读 BS4 文档，但我不明白为什么我的代码不起作用。

我正在尝试使用 webscraper提取这篇文章的标题，但它似乎找不到任何与“('div', class_='header')”匹配的标签

我的代码：

import requests

from bs4 import BeautifulSoup

SOURCE = requests.get('http://coreyms.com/').text

SOUP = BeautifulSoup('SOURCE', 'lxml')

HEADER = SOUP.find('div', class_='header')

HEADLINE = HEADER.h2.a.href

print(HEADLINE)

错误信息：

Traceback (most recent call last):

File "WSCoreySchafer.py", line 10, in <module>

HEADLINE = ARTICLE.h2.a.href

AttributeError: 'NoneType' object has no attribute 'h2'

开心每一天1111

浏览 100回答 1