我是 python 和 pandas 的新手,并创建了一个带有 html 代码的测试网页,用于帮助学习如何提取数据,然后格式化为 CSV 以在 excel 中使用。下面是我想出的代码,它把它变成了一个很好的格式,但我被困在如何将它格式化成一个 CSV 文件来导入。
代码:
# Importing pandas
import pandas as pd
# The webpage URL whose table we want to extract
url = "/home/dvm01/e007"
# Assign the table data to a Pandas dataframe
table = pd.read_html(url,**index_col=0**)[0]
#table2 = pd.read_html(url)[0],pd.read_html(url)[1],pd.read_html(url)[6]
# Print the dataframe
print(table)
#print(table2)
# Store the dataframe in Excel file
#table.to_excel("data.xlsx")
输出:
Account Account.1
ID: e007
Description: ABST: 198, SUR: J DOUTHIT
Geo ID: 014.0198.0000
我想弄清楚的是如何删除行的索引并使第一个之前的文本:成为列标题。在第 1 行中,我有两个:但第一个之后的所有内容:应该是列标题的数据。
我想采用上述当前输出,并将 ID、描述和地理 ID 作为列标题,将“:”之后的文本作为每个标题的数据。
我不需要 'Account' 和 'Account.1' 我相信这些被识别为列标题。下面是我希望输出在 Excel 中的样子,但我不知道如何正确格式化它以导出到可以导入的 CSV。也许我什至不需要导入或格式化为 CSV,'table.to_excel' 函数似乎不需要这一步。
+------+---------------------------+---------------+
| ID | Description | Geo ID |
+------+---------------------------+---------------+
| e007 | ABST: 198, SUR: J Douthit | 014.0198.0000 |
+------+---------------------------+---------------+
通过使用上面定义 dfs 变量的 index_col=0 ,我能够删除索引号。不确定这是最好的方法,但它确实做了我试图为那部分完成的事情。
由于我是 python 新手,我很难将我的问题格式化为 Google 或 StackOverflow 以获得我正在寻找的答案。如果有人能指出我正在寻找的正确方向,那会奏效,但例子也会很好。
江户川乱折腾
相关分类