我有一列熊猫数据框,我想根据分隔符的第二个实例将其拆分并扩展为新的数据框。我根据分隔符的最后一个实例进行拆分,但不幸的是,在大约 80k 行中有少数实例有 4 个“_”而不是 3 个。
例如,我有一个包含多列的数据框,其中我想拆分为新数据框的列如下所示:
df.head()
gene
0 NM_000000_foo_blabla
1 NM_000001_bar
我想拆分和扩展它,使其分开:
(需要)
df2.head()
col1 col2
0 NM_000000 foo_bar
1 NM_000001 foo
在使用我当前的代码时:
df2 = df['gene'].str.rsplit('_', 1, expand=True).rename(lambda x: f'col{x + 1}', axis=1)
我明白了:
(实际的)
df2.head()
col1 col2
0 NM_000000_foo bar
1 NM_000001 foo
有没有一种简单的方法来实现这个我修改我已经在使用的代码行?我尝试使用 rsplit 中的拆分数量,但无法达到我想要的结果。谢谢!
慕田峪7331174
catspeake
相关分类