不同的缺失值作为不同数据框列中的列表被替换为 NaN

我有两个文件。一个是我的属性的详细信息,名称为 detail.csv,另一个是数据文件,其中包含有关这些属性的数据,名称为 data.csv


在 detail.csv 文件中,我们有两列“属性”,它给出了属性的名称和“缺失值表示”,它给出了一个值列表,这些值被用作该属性的缺失值。很少有相同的例子已在下面给出。


Attribute   Missing value representation

Height       [-1,0]

Weight       [X]

Salary       []

Gender       [XX]

现在,使用这些信息,我必须用 NaN 替换我的数据文件“data.csv”中所有相应属性的所有缺失值。数据文件中的数据表示为:


Height   Weight  Salary  Gender

-1       50      20000    F

132      X                XX

我怎样才能做到这一点?


摇曳的蔷薇
浏览 189回答 1
1回答

富国沪深

假设您阅读了 CSV,它们看起来像:  Attribute Missing value representation0    Height                      [-1, 0]1    Weight                          [X]2    Salary                           []3    Gender                         [XX]   Height Weight Salary Gender0      -1     50  20000      F1     132      X            XX您可以执行以下操作:import numpy as npfor key,row in details.iterrows():    for el in row['Missing value representation']:        data[row['Attribute']].replace(el,np.NaN,inplace=True)您为每一列获取所有可能的缺失值表示,查看这些列并将这些值替换为 NaN。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python