背景:我对 Python 相当有经验,但对 BeautifulSoup 完全是个菜鸟
我试图从一个类中获取 3 个值。我正在使用的页面看起来有一系列元素,如下所示:
<blockquote>
<a name="title"><p><B>Title</b> <table frame="hsides" border="1" cellspacing="0" cellpadding="2" bordercolor="darkblue"><tr><td><font face="arial" size="2" color="#0000CC"><b><I>Subtitle</I>: Top Text.</b></font></td></tr></table> Body Text.
<a name="title2".... etc
</blockquote>
目前,我只是将所有文本转储到这样的列表中:
page_html = soup(page, 'html.parser')
text = []
for a in page_html.select('a'):
text.append(a.text)
这将返回每行如下所示的结果:
Title Subtitle: Top Text. Body Text.
我真正想要的是能够将每个解析a成数据框中的一行,看起来像:
col1 col2 col3
Title Subtitle: Top Text. Body Text.
但坦率地说,我有点过头了。
湖上湖
慕的地6264312
相关分类