在 pandas 数据框上拆分和执行功能的最有效方法

我得到了一个数据框,其中包含行中的值(A 和 B)的两个测量值,每列代表样本的测量值。


下面的例子:


ID S1 S2 S3

M1_A 1 2 3 

M1_B 3 2 1

M2_A 1 2 3 

M2_B 3 2 1 

我需要为每个样本的每次测量计算 B 与 A+B 的比率 [即 (B/(A+B))]。


结果数据框示例:


ID S1 S2 S3

M1 0.75 0.5 .25 

M2 0.75 0.5 .25

目前,我一次读取文件两行,检查 ID 是否匹配(不包括 _A 或 _B),将“行”转换为向量,然后执行计算到向量。在较大的样本集上,这变得非常缓慢。


使用 pandas 等库最有效的方法是什么?


所有帮助表示赞赏!


泛舟湖上清波郎朗
浏览 160回答 1
1回答

阿晨1998

这听起来像是一个经典的 groupby-aggregate 问题。Pandas 也可以轻松处理 ID 列中的下划线。df['ID'] = df['ID'].str.split('_').str[0]df = df.groupby('ID').agg(lambda x: x.values[-1]/x.sum())print(df)      S1   S2    S3ID                 M1  0.75  0.5  0.25M2  0.75  0.5  0.25
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python