给定df具有 100 万行的数据框:
HOUSEID PERSONID my_string
0 20000017 1 0,0,0,1-100,100,100-11,0,0
1 20000017 1 53,53,53,0,0,0,0,0
2 20000017 1 0,0,0,0,0,12,12,12
3 20000017 2 1-100-43,43,0,0,0,0,0,0
4 20000017 2 0,0,82-100-41,41,0,0,0,0
5 20000017 2 0,0,0,53,53,53,0,0
6 20000017 2 0,0,0,0,0,0,0,0
7 20000231 1 41-100,100-41,41,0,0,0,0,0
8 20000231 1 0,0,0,41-100,100-1,0,0,0
在该列my_string中,有 8 个字符串(在我的真实数据帧中为 96 个)代码,由“,”(有时不止一个数字)分隔。对于HOUSEID和PERSONID(一个人)的每个唯一组合,我希望以“0”值填充同一个人其他行的相应下标的方式组合数字。这是所需的输出:
HOUSEID PERSONID my_string
0 20000017 1 53,53,53,1-100,100,100-11,12,12
1 20000017 2 1-100-43,43,82-100-41,41,53,53,0,0
2 20000231 1 41-100,100-41,41,41-100,100-1,0,0,0
在某些情况下,一个人最终会得到同一个下标的两个值。在这种情况下,我宁愿将更长的代码嵌入到我的最终字符串中。
这可能吗?
如果是,如何?
湖上湖
相关分类