熊猫快速移除标点符号
这是一个自我回复的帖子。下面,我概述了NLP领域的一个常见问题,并提出了一些解决该问题的性能方法。
经常需要移除标点符号在文本清理和预处理过程中。标点符号定义为string.punctuation:
string.punctuation
>>> import string string.punctuation'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'
这是一个很常见的问题,在令人作呕之前就已经被问到了。最地道的解决办法是用熊猫str.replace..但是,对于涉及罗得对于文本,可能需要考虑一种更具表现力的解决方案。
str.replace
什么是好的、有表现力的替代方案?str.replace在处理成千上万的记录时?
尚方宝剑之说
相关分类