熊猫快速移除标点符号
这是一个自我回复的帖子。下面,我概述了NLP领域的一个常见问题,并提出了一些解决该问题的性能方法。
经常需要移除标点符号在文本清理和预处理过程中。标点符号定义为string.punctuation
:
>>> import string
string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
这是一个很常见的问题,在令人作呕之前就已经被问到了。最地道的解决办法是用熊猫str.replace
..但是,对于涉及罗得对于文本,可能需要考虑一种更具表现力的解决方案。
什么是好的、有表现力的替代方案?str.replace
在处理成千上万的记录时?