如何从包含列表的熊猫列中进行一次编码?

我想将由元素列表组成的pandas列分解成与唯一元素即one-hot-encode它们一样多的列(其值1表示行中存在的给定元素0,如果不存在则表示给定元素)。


例如,取数据框df


Col1   Col2         Col3

 C      33     [Apple, Orange, Banana]

 A      2.5    [Apple, Grape]

 B      42     [Banana] 

我想将其转换为:


df


Col1   Col2   Apple   Orange   Banana   Grape

 C      33     1        1        1       0

 A      2.5    1        0        0       1

 B      42     0        0        1       0

如何使用pandas / sklearn实现此目的?


侃侃尔雅
浏览 359回答 3
3回答

慕工程0101907

用途get_dummies:df_out = df.assign(**pd.get_dummies(df.Col3.apply(lambda x:pd.Series(x)).stack().reset_index(level=1,drop=True)).sum(level=0))输出:  Col1  Col2                     Col3  Apple  Banana  Grape  Orange0    C  33.0  [Apple, Orange, Banana]      1       1      0       11    A   2.5           [Apple, Grape]      1       0      1       02    B  42.0                 [Banana]      0       1      0       0清理列:df_out.drop('Col3',axis=1)输出:  Col1  Col2  Apple  Banana  Grape  Orange0    C  33.0      1       1      0       11    A   2.5      1       0      1       02    B  42.0      0       1      0       0
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python