我正在学习如何通过 Python 使用 BeautifulSoup 库,为了练习,我尝试从这个维基百科页面中删除流派标题: https ://en.wikipedia.org/wiki/List_of_jazz_genres
我已经能够在我的代码中做到这一点:
from bs4 import BeautifulSoup
html = open("wiki-jazz.html", encoding="utf=8")
soup = BeautifulSoup(html, "html.parser")
table = soup.find_all("table")[1]
td = table.find_all("td")
print(td)
table[1] 包含我想要访问的数据。更具体地说,我真的只需要位于此标题属性中的数据:
</td>, <td><a href="/wiki/West_Coast_jazz" title="West Coast jazz">West Coast jazz</a>
我一直在绞尽脑汁地思考如何提取这些信息。我已经看过这里的其他帖子,但无法完全理解。谢谢。
萧十郎
慕森王