如何按组计算两列值的比率?

我有一个航班列表作为熊猫数据框,如下所示:


airline        status          number    ...


Aer Lingus     some error A        14    ...

Aeroflot       success             47    ...

Air Canada     success              2    ...

Air Dolomiti   success              2    ...

Air Europa     some error B         4    ...

Air France     success             40    ...

Alitalia       some error A        10    ...

....

我为每个成功或出错的航班进行了一些 api 调用。


我想要的是每家航空公司的成功率。所以我知道我可以用 groupby 计算“航空公司”和“状态”列中值的出现次数,但我没有对值的比率执行此操作。


def calculate_quote_success_ratios(flights):


    success_ratio_per_airline = flights.groupby(['airline', 'status']).count()

    # TODO: Include ratio with failures!


    return success_ratio_per_airline

预期的输出应该是这样的:


airline        success_ratio


Aer Lingus     0.72

Aeroflot       0.845

Air Canada     0.935

Air Dolomiti   0.5

Air Europa     ...

....

编辑:要清楚,该列df['numbers']不相关。所以我只想计算每家航空公司各种错误的“成功”百分比。


慕斯王
浏览 128回答 3
3回答

阿波罗的战车

我有一个航班列表作为熊猫数据框,如下所示:airline        status          number    ...Aer Lingus     some error A        14    ...Aeroflot       success             47    ...Air Canada     success              2    ...Air Dolomiti   success              2    ...Air Europa     some error B         4    ...Air France     success             40    ...Alitalia       some error A        10    .......我为每个成功或出错的航班进行了一些 api 调用。我想要的是每家航空公司的成功率。所以我知道我可以用 groupby 计算“航空公司”和“状态”列中值的出现次数,但我没有对值的比率执行此操作。def calculate_quote_success_ratios(flights):    success_ratio_per_airline = flights.groupby(['airline', 'status']).count()    # TODO: Include ratio with failures!    return success_ratio_per_airline预期的输出应该是这样的:airline        success_ratioAer Lingus     0.72Aeroflot       0.845Air Canada     0.935Air Dolomiti   0.5Air Europa     .......编辑:要清楚,该列df['numbers']不相关。所以我只想计算每家航空公司各种错误的“成功”百分比。

梵蒂冈之花

分组明智的航班数量计数count_flight=df.groupby('airline').status.count()成功数量的分组明智计数count_success=df[df['status']=='success'].groupby('airline').status.count()pandas div 返回前两个数据帧的分组比率。count_success.div(count_flight).fillna(0)

HUX布斯

我不得不修改你的例子才能让它工作,但你可以简单地做 df.groupby(['airline', 'status']).sum() / df.groupby(['airline']).sum()原始 df:airline           status    number0   Aer Lingus  some error A    141   Aeroflot    success 472   Air Canada  success 23   Air Dolomiti    success 24   Air Europa  some error B    45   Air France  success 406   Alitalia    some error A    107   Alitalia    success 108   Air France  some error B    109   Aer Lingus  success 12df.groupby(['airline', 'status']).sum() / df.groupby(['airline']).sum()                                  numberairline         status  Aer Lingus     some error A     0.538462               success          0.461538Aeroflot       success          1.000000Air Canada      success         1.000000Air Dolomiti    success         1.000000Air Europa    some error B      1.000000Air France    some error B      0.200000              success           0.800000Alitalia      some error A      0.500000              success           0.500000
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python