猿问

Pandas 按特定列分组

描述

您如何使用 Pandas groupby对某些列进行分组,而不对其他列进行分组?


现在的进展

table_D = pd.DataFrame({

    'Geo_ID': [1, 1, 1, 1, 2, 3, 4, 4, 5],

    'A_Code': [12, 12, 12, 65, 65, 65, 65, 98, 98],

    'A_Cost': [2, 9, 1, 10, 6, 7, 7, 6, 2],

}, columns=['Geo_ID', 'A_Code', 'A_Cost'])

table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])

table_D_dummies_grouped = table_D_dummies.groupby(by = ["Geo_ID"]).sum()

问题

如下所示,这正确地按 Geo_ID 汇总了成本。不幸的是,它也是由 A_Code 求和的。


A_Code_12,A_Code_65和A_Code_98应结合分开。此外,在实际数据集中,A_Code 有 100 多个。


数据

表_D


+--------+--------+--------+

| Geo_ID | A_Code | A_Cost |

+--------+--------+--------+

|      1 |     12 |      2 |

|      1 |     12 |      9 |

|      1 |     12 |      1 |

|      1 |     65 |     10 |

|      2 |     65 |      6 |

|      3 |     65 |      7 |

|      4 |     65 |      7 |

|      4 |     98 |      6 |

|      5 |     98 |      2 |

+--------+--------+--------+

table_D_dummys


+---+--------+--------+-----------+-----------+-----------+

|   | Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |

+---+--------+--------+-----------+-----------+-----------+

| 0 |      1 |      2 |         1 |         0 |         0 |

| 1 |      1 |      9 |         1 |         0 |         0 |

| 2 |      1 |      1 |         1 |         0 |         0 |

| 3 |      1 |     10 |         0 |         1 |         0 |

| 4 |      2 |      6 |         0 |         1 |         0 |

| 5 |      3 |      7 |         0 |         1 |         0 |

| 6 |      4 |      7 |         0 |         1 |         0 |

| 7 |      4 |      6 |         0 |         0 |         1 |

| 8 |      5 |      2 |         0 |         0 |         1 |

+---+--------+--------+-----------+-----------+-----------+

白衣染霜花
浏览 174回答 1
1回答

智慧大石

您没有使用虚拟表,而是对原始数据框进行了分组:table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])table_D_dummies_grouped = table_D.groupby(by = ["Geo_ID"]).sum()你想在table_D_dummies这里分组:>>> table_D_dummies   Geo_ID  A_Cost  A_Code_12  A_Code_65  A_Code_980       1       2          1          0          01       1       9          1          0          02       1       1          1          0          03       1      10          0          1          04       2       6          0          1          05       3       7          0          1          06       4       7          0          1          07       4       6          0          0          18       5       2          0          0          1>>> table_D_dummies.groupby(by = ["Geo_ID"]).sum()        A_Cost  A_Code_12  A_Code_65  A_Code_98Geo_ID1           22          3          1          02            6          0          1          03            7          0          1          04           13          0          1          15            2          0          0          1如果您需要对每个 dummy 的成本求和,请将它们添加到分组列中:>>> table_D_dummies.groupby(by = [...     "Geo_ID",...     *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))... ]).sum()                                      A_CostGeo_ID A_Code_12 A_Code_65 A_Code_981      0         1         0              10       1         0         0              122      0         1         0               63      0         1         0               74      0         0         1               6                 1         0               75      0         0         1               2
随时随地看视频慕课网APP

相关分类

Python
我要回答