Large Pandas Dataframe 中一小部分值的频率

3回答

红糖糍粑

在链接的问题中，性能更高的解决方案是：df.apply(lambda row: row.value_counts(dropna=False), axis=1).fillna(0)这可能已经足以满足您的目的；但是，如果您只需要几个值，则可能会更快：counts = pd.Series({(df == key).values.sum() for key in ['yes_1', 'no_51']})

12345678_0001

我不知道它是否比你的技术更好，但我建议将其作为测试的解决方案：(    pd    .melt(df,id_vars=['ID'])    .assign(yes_1 = lambda x: np.where(x['value']=='yes_1',1,0))    .assign(no_51 = lambda x: np.where(x['value']=='no_51',1,0))    .sum())

肥皂起泡泡

df.set_index('ID', inplace=True)#Set ID as indexdf[~df.isin(['yes_1', 'no_51'])] = np.nan#Set anything not in the set as nanpd.get_dummies(df.stack().unstack())#get dummies from a datframe that has dropped anycolumns with NaNS                    class1_yes_1  class3_no_51  class3_yes_1ID                                             xyz_1             1             0             0xyz_2             0             1             0xyz_3             0             0             1