选择具有不明确值分配的数据框行

我在识别模棱两可的变量匹配时遇到问题。我正在查看数据库,并希望找到标识符在整个观察期内发生变化的公司。我还有另一个永久标识符。


如果表格如下所示:


ID1  ID2


1111  1

1111  1

1111  1

1112  1

1112  1

1112  1

4444  2

4444  2

4444  2

我想得到一个类似这样的简单输出:


ID1   ID2


1111  1

1112  1

提前谢谢了!


30秒到达战场
浏览 128回答 2
2回答

月关宝盒

在:df = pd.read_clipboard()df = df.drop_duplicates()df[df.duplicated(subset=['ID2'], keep=False)]出去:|   | ID1  | ID2 ||---|------|-----|| 0 | 1111 | 1   || 3 | 1112 | 1   |

慕标5832272

您需要首先识别ID2具有超过 1 个 ID1(带有transform('nunique'))的 s,然后我们删除重复项。df[df.groupby('ID2').ID1.transform('nunique').gt(1)].drop_duplicates()#    ID1  ID2#0  1111    1#3  1112    1
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python