我有与此类似的原始数据框
my_df = pd.DataFrame({'uid': [4, 3, 6, 4, 3, 6, 1],'days': ['D1', 'D3', 'D3', 'D4', 'D4', 'D2','D2']})
uid days
0 4 D1
1 3 D3
2 6 D3
3 4 D4
4 3 D4
我使用 get_dummies() 并获得了这种编码数据帧。
my_new_df = pd.get_dummies(my_df ,columns=['days'])
uid days_D1 days_D2 days_D3 days_D4
0 4 1 0 0 0
1 3 0 0 1 0
2 6 0 0 1 0
3 4 0 0 0 1
4 3 0 0 0 1
我想要一个数据框,其中每个 uid 的所有分类值都编码在一行中。像这样
uid D1 D2 D3 D4
4 1 0 0 1
3 0 0 1 1
6 0 1 1 0
1 0 1 0 0
我曾尝试寻找实现此结果的优化方法,但我无法做到这一点。我的原始数据框中有 222000 个值。请建议获取这样的编码分类变量的方法
梦里花落0921
千万里不及你
手掌心
相关分类