慕慕4214327
2019-07-22 19:26
正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗
# 正则对字符串清洗
def textParse(str_doc):
# 正则过滤掉特殊符号、标点、英文、数字等。
r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'
# 去除空格
r2 = '\s+'
# 去除换行符
str_doc=re.sub(r1, ' ', str_doc)
# 多个空格成1个
str_doc=re.sub(r2, ' ', str_doc)
# 去除换行符
# str_doc = str_doc.replace('\n',' ')
return str_doc
Python数据预处理(二)- 清洗文本数据
9371 学习 · 26 问题
相似问题