我正在尝试使用 BeautifulSoup 从网站中提取文本,但愿意探索其他选项。目前我正在尝试使用这样的东西:
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
boston_url = 'https://www.mass.gov/service-details/request-for-proposal-rfp-notices'
hdr = {'User-Agent': 'Mozilla/5.0'}
req = Request(boston_url,headers=hdr)
webpage = urlopen(req)
htmlText = webpage.read().decode('utf-8')
pageText = BeautifulSoup(htmlText, "html.parser")
body = pageText.find_all(text=True)
目标是弄清楚如何提取红色框中的文本。您可以看到我从下面的 CMD 照片中获得的输出。它非常混乱,我不确定如何从中找到正文段落。我可以遍历输出并查找某些词,但我需要对多个站点执行此操作,而且我不知道正文段落中的内容。


呼如林
HUX布斯
慕姐8265434
随时随地看视频慕课网APP
相关分类