我创建了一个爬虫。所以,现在我有一堆被抓取的 URL。我需要使用向量空间或至少是 HTML 中所有术语的列表来创建索引。
假设这个随机网页https://www.centralpark.com/things-to-do/central-park-zoo/polar-bears/
如何解析该网页中的所有术语?我有点不明白我应该在特定标签之间抓取文本还是其他东西或者我应该使用哪个库?我完全迷失了。
这是我需要对 HTML 执行的操作:
你可以在线使用 html 解析器,但原则上,你可以使用 html 正文中的文本...或者像这样的 p /p、h2 /h2 这样的标签之间的文本。
任何解析上述 HTML 的帮助表示赞赏。
编辑:我正在尝试 BeautifulSoup:
import bs4
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_url='https://www.centralpark.com/things-to-do/central-park-zoo/polar-bears/'
# opening up connection
uClient = uReq(my_url)
page_html = uClient.read()
# close connection
uClient.close()
page_soup = soup(page_html, features="html.parser")
print(page_soup.p)
如何将所有文本元素放入列表?
前任:
<p>This is p<\p>
<p>This is another p<\p>
<h1>This is h1<\h1>
maybe some other text tags
到
List = ['This is p','This is another p','This is h1',...]
www说
相关分类