我有一个数据集如下:
data = {"C1" : ['DDDSSDSSDS','SSDDDSSDDS',
'DDDDDDDDDD','SSSSSSSSSS','SSSSSSSDSS','DDDDDSDDDD','SDDDDDDDDD']}
dt = pd.DataFrame(data)
print(dt)
对于每个字符串,我想获取每个“不间断 S 组”的第一个元素和最后一个元素的位置。例如,对于第一行,我有“DDD SS D SS D S ”(如您所见,我有三组 S),我最喜欢的“S 组”输出类似于[(3,5),(6,8),(9-10)]显示第一和第二的位置第一排第三个“不间断的S组”。
因此输出的示例如下:
C1 C2
0 DDDSSDSSDS [(3, 5), (6, 8), (9-10)]
1 SSDDDSSDDS [(0, 2), (5, 7), (9, 10)]
2 DDDDDDDDDD []
3 SSSSSSSSSS [(1, 11)]
4 SSSSSSSDSS [(0, 7), (8, 10)]
5 DDDDDSDDDD [(5, 6)]
6 SDDDDDDDDD [(0, 1)]
我当前的解决方案是:
def split_it(mystring):
x = re.findall('(S*)', mystring)
if x :
return(x)
dt['C2'] = dt['C1'].apply(split_it)
print(dt)
这会导致以下输出:
0 DDDSSDSSDS [, , , SS, , SS, , S, ]
1 SSDDDSSDDS [SS, , , , SS, , , S, ]
2 DDDDDDDDDD [, , , , , , , , , , ]
3 SSSSSSSSSS [SSSSSSSSSS, ]
4 SSSSSSSDSS [SSSSSSS, , SS, ]
5 DDDDDSDDDD [, , , , , S, , , , , ]
6 SDDDDDDDDD [S, , , , , , , , , , ]
慕雪6442864
九州编程
相关分类