问答详情
源自:2-4 自定义去停用词

正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

提问者:慕慕4214327 2019-07-22 19:26

个回答

  • 伏草惟存
    2019-07-24 11:05:08

    # 正则对字符串清洗

    def textParse(str_doc):

        # 正则过滤掉特殊符号、标点、英文、数字等。

        r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'

        # 去除空格

        r2 = '\s+'

        # 去除换行符

        str_doc=re.sub(r1, ' ', str_doc)

        # 多个空格成1个

        str_doc=re.sub(r2, ' ', str_doc)

        # 去除换行符

        # str_doc = str_doc.replace('\n',' ')

        return str_doc