正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

来源:2-4 自定义去停用词

慕慕4214327

2019-07-22 19:26

正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

写回答 关注

1回答

  • 伏草惟存
    2019-07-24 11:05:08

    # 正则对字符串清洗

    def textParse(str_doc):

        # 正则过滤掉特殊符号、标点、英文、数字等。

        r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'

        # 去除空格

        r2 = '\s+'

        # 去除换行符

        str_doc=re.sub(r1, ' ', str_doc)

        # 多个空格成1个

        str_doc=re.sub(r2, ' ', str_doc)

        # 去除换行符

        # str_doc = str_doc.replace('\n',' ')

        return str_doc


Python数据预处理(二)- 清洗文本数据

教会你使用Python数据预处理

9371 学习 · 26 问题

查看课程

相似问题