如何在python中查看或修改多索引数据框中的值

我有一个具有以下结构的数据框:


      Cluster 1                Cluster 2                Cluster 3

ID     Name     Revenue    ID    Name   Revenue    ID     Name   Revenue

1234   John     123        1235  Jane   761        1237   Mary   276

1376   Peter    254        1297  Paul   439        1425   David  532

但是,我不确定如何执行基本功能,例如列.unique或.value_count列,因为我不确定如何在代码中引用它们...


例如,如果我想查看 Cluster 2 Name 列中的唯一值,我将如何编写代码?通常我会打字df.Name.unique(),或者df['Name'].unique()这些都不起作用。


我的原始数据如下所示:


ID     Name     Revenue     Cluster

1234   John     123         1

1235   Jane     761         2

1237   Mary     276         3

1297   Paul     439         2

1376   Peter    254         1

1425   David    532         3

我用这段代码让我明白了我现在的观点:


df = (df.set_index([df.groupby('Cluster').cumcount(), 'Cluster'])

        .unstack()

        .swaplevel(1,0, axis=1)

        .sort_index(axis=1)

        .rename(columns=lambda x: f'Cluster {x}', level=0))```


元芳怎么了
浏览 116回答 1
1回答

肥皂起泡泡

您只需要按顺序按索引进行子集化。因此,您的第一步是对集群 2 进行子集化,然后获取唯一名称。例如:df["Cluster 2"]["Names"].unique()
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python