这个是列表解析式,这个part是从后面那个part过来的,比如 a = [1,2,3]
b = [x for x in a],则b也等于[1,2,3]
# 正则对字符串清洗
def textParse(str_doc):
# 正则过滤掉特殊符号、标点、英文、数字等。
r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'
# 去除空格
r2 = '\s+'
# 去除换行符
str_doc=re.sub(r1, ' ', str_doc)
# 多个空格成1个
str_doc=re.sub(r2, ' ', str_doc)
# 去除换行符
# str_doc = str_doc.replace('\n',' ')
return str_doc