从 pandas 数据框中删除数字和用户的停用词

我想知道如何从数据集中删除一些变量,特别是数字和字符串列表。例如。


    Test      Num

0   bam       132

1   -         65

2   creation  47

3   MAN       32

4   41        831

... ... ...

460 Luchino   21

461 42 4126   7

462 finger    43

463 washing   1

我想要有类似的东西


    Test      Num

0   bam       132

2   creation  47

... ... ...

460 Luchino   21

462 finger    43

463 washing   1

我(手动)删除了 MAN (它应该包含在字符串列表中,如停用词)、-和数字。


我尝试过 isdigit 但它不起作用,所以我确信我的代码中有错误:


df['Text'].where(~df['Text'].str.isdigit())

对于我的停用词:


my_stop=['MAN','-']

df['Text'].apply(lambda lst: [x for x in lst if x in my_stop])


倚天杖
浏览 121回答 2
2回答

繁花不似锦

如果你想过滤你可以使用.locdf = df.loc[~df.Text.str.isdigit() & ~df.Text.isin(['MAN']), :].where(cond, other)cond返回与 self 形状相同的数据帧或系列,但保留true 的原始值并替换other为 false 的值。

慕妹3242003

嗨你应该尝试这个代码: df[df['Text']!='MAN']
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python