从没有 Pandas 推断标题的 csv 中读取特定列

我正在尝试从pandas.read_csvJupyter Notebooks 中的 csv 文件中读取特定列。我知道我感兴趣的数据从哪一行开始,并使用skiprows关键字转到包含列标签的那一行。


但是,即使我指定了要使用usecols的列,Pandas 也只会删除列中的值,而不是列本身。因此,如果我test.csv看起来像这样:


*first 6 rows to be skipped*

1,2,3,4,5,6

a,b,c,d,e,f

A,B,C,D,E,F

片段(导入正确的模块后)


df = pandas.read_csv('test.csv', skiprows = 5, usecols = np.r_[0, 2:7])


1,2,3,4,5,6

a,nan,c,d,e,f

A,nan,C,D,E,F

而不是想要的


1,3,4,5,6

a,c,d,e,f

A,C,D,E,F

我已通读文档pandas.read_csv,但没有看到有关如何获得所需结果的指示。


ETA:我试图让 Pandas(或 Jupyter Noteooks)从数据框中排除列,而不仅仅是列包含的值。


精慕HU
浏览 204回答 2
2回答

Cats萌萌

我用您给我的示例进行了尝试,并注意到您要读取的列数是6,即1, 2, 3, 4, 5 and 6,而usecols您输入的也使用6条目,即索引0, 2, 3, 4, 5 and 6。换句话说,您正在使用不存在的列,这就是它转向NaN.内容test.csv为:1-5: *skip*6:  1,  2,  3,  4,  5,  67:  a,  b,  c,  d,  e,  f8:  A,  B,  C,  D,  E,  F我用您给定的数据进行了尝试,结果如下:df = pandas.read_csv('test.csv', usecols = [0, 2:6], skiprows=5)print(df)产生:   1  3  4  5  60  a  c  d  e  f1  A  C  D  E  F另一方面,您的原始代码:df = pandas.read_csv('test.csv', usecols = [0, 2:7], skiprows=5)print(df)产量:   1  2  3  4  5    60  a  c  d  e  f  NaN1  A  C  D  E  F  NaN为此,您也可以删除该列:df.drop(['6'], axis=1, inplace=True)df.columns = ['1', '3', '4', '5', '6']

撒科打诨

您可以尝试类似下面的方法,在其中指定要保留的所有列。df.loc[:, ["1", "3", "4", "5", "6"]]或者您可以低于此将仅删除指定的列。df.drop(["2"], axis=1)
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python