我正在学习一些基本的数据科学,我正在研究泰坦尼克号数据集。“年龄”列具有空值,我想用其他列的平均值填充,例如“Pclass”或“”。
“P舱”是指乘客舱位,根据乘客是否持有1等舱、2等舱或3等舱机票,有三个值(1、2、3)。
我试图通过编写一个函数来概括此过程,该函数采用两个列名,“Age”和我们要用于聚合的列。我想不出如何完全概括这一点,所以现在,假设我基于Pclass进行聚合。
我根据Pclass得到了平均年龄,如下所示:
# Figure out the mean age for each class
mean_age = round(df_train.groupby('Pclass').mean()['Age'])
mean_age
我试图定义如下函数(38,30和25)来自mean_age:
def fill_age(data, col1, col2):
if data[col1].isnull():
if data[col2] == 1:
return 38
elif data[col2] == 2:
return 30
else:
return 25
else:
return data[col1]
并尝试使用 .apply():
df_train['Age'] = df_train.apply(fill_age(df_train,'Age','Pclass'), axis = 1)
我在这里犯了什么错误,我该如何思考这个问题来修复它并进一步推广它?
编辑:以下行似乎已经工作,但我需要它来将更改应用于数据帧本身,并且我不能将“就地”与.apply()一起使用
df_train.groupby('Pclass')['Age'].apply(lambda x: x.fillna(round(x.mean())))
德玛西亚99
相关分类