我正在用 Python 编写脚本,我正在寻找以下问题的最佳解决方案:
我有大熊猫数据框(至少 100k 行),如果 col2 中存在具有相同值但 col3 中值不同的行,那么我想将 col3 中的所有值更改为 A
例如:
----------------------
| col1 | col2 | col3 |
----------------------
| a | 1 | A |
----------------------
| b | 2 | A |
----------------------
| c | 2 | B |
----------------------
| d | 2 | B |
----------------------
| e | 3 | B |
----------------------
| f | 3 | B |
----------------------
应该是这样的:
----------------------
| col1 | col2 | col3 |
----------------------
| a | 1 | A |
----------------------
| b | 2 | A |
----------------------
| c | 2 | A |
----------------------
| d | 2 | A |
----------------------
| e | 3 | B |
----------------------
| f | 3 | B |
----------------------
我通过在 col2 上对数据帧进行排序并遍历行来解决这个问题,每当 col2 中的值发生变化并且相同 col2 值的“块”中的值是不同的值时,我会更改 col3 值,但是这个算法需要大约 60 秒来处理 100k 行,我正在寻找更充分的答案。
牧羊人nacy
相关分类