将多页 Web 表格提取到 Excel 中

我有一张跨越很多页的表格。我能够从指定页面提取信息并将其提取到 CSV 表中。我现在的目标是让它迭代所有页面并将其添加到上一页信息的底部。这是迄今为止在单个页面上运行的代码:


import requests

import pandas as pd


url = 'https://www.mineralanswers.com/oklahoma/producers?page=1'

html = requests.get(url).content

df_list = pd.read_html(html)

df = df_list[-1]

print(df)


df.to_csv('my data.csv')

页面 URL 设置为“... Producers?page = 1,... Producers?page = 2 ... Producers?page = 3”格式,所以我觉得可能使用循环,我只是有麻烦修改数据而不是覆盖它。


慕森卡
浏览 155回答 1
1回答

鸿蒙传说

以下是更正后的示例代码,用于获取 3 页并将它们附加到一个 DataFrame。import requestsimport pandas as pddf = pd.DataFrame()for page in range(1, 4):    url = 'https://www.mineralanswers.com/oklahoma/producers?page=' + str(page)    html = requests.get(url).content    df_list = pd.read_html(html)    df = df.append(df_list[-1], ignore_index = True)df.to_csv('my data.csv')
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python