我正在尝试从两个不同的 HTML 源中抓取 HTML 表格。两者非常相似,每个表都包含相同的数据,但它们的结构可能不同,具有不同的列名称等。对于一个源,所有数据可能包含在一个表中,而另一个源可能将数据分解为两个单独的桌子。
作为一个例子,我们可以看看 AAPL 和 MMM 股票的内部持有者。
屏幕截图在这里 - https://i.stack.imgur.com/dt6Pa.jpg
可以说,最终目标是提取内部人士持有的股份总数——一个单一数字。每个表格的结构可能不同,但应该相似的是“受益”或“股票”等关键词。
任何帮助将不胜感激。在上一篇文章中,我能够提取一些数据。但如果结构不同,则不能循环或重复。
df = pd.read_html("https://www.sec.gov/Archives/edgar/data/66740/000120677420000907/mmm3661701-def14a.htm", attrs={'style': 'border-collapse: collapse; width: 100%; font: 9pt Arial, Helvetica, Sans-Serif'}, match="Name/address")
df = df[0]
df = df.dropna(axis = 'columns')
还尝试过BS
url = 'https://www.sec.gov/Archives/edgar/data/66740/000120677420000907/mmm3661701-def14a.htm'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
tables = soup.find_all('table')
rows = tables.find_all('tr')
素胚勾勒不出你
相关分类