熊猫快速移除标点符号

熊猫快速移除标点符号

这是一个自我回复的帖子。下面,我概述了NLP领域的一个常见问题,并提出了一些解决该问题的性能方法。

经常需要移除标点符号在文本清理和预处理过程中。标点符号定义为string.punctuation:

>>> import string
string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

这是一个很常见的问题,在令人作呕之前就已经被问到了。最地道的解决办法是用熊猫str.replace..但是,对于涉及罗得对于文本,可能需要考虑一种更具表现力的解决方案。

什么是好的、有表现力的替代方案?str.replace在处理成千上万的记录时?


阿波罗的战车
浏览 695回答 3
3回答

尚方宝剑之说

有趣的是Series.str.Transform方法仍然比Vanilla Python稍慢一些。str.translate():def&nbsp;pd_translate(df): &nbsp;&nbsp;&nbsp;&nbsp;return&nbsp;df.assign(text=df['text'].str.translate(transtab))
打开App,查看更多内容
随时随地看视频慕课网APP