我想将两行代码合二为一。
第一个是删除所有 string.punctuations。我使用的代码如下:
df[col].apply(lambda x: re.sub(r'[!\"#$%&\'()*+,-.\/:;<=>?@[\\]^_`{|}~]+', '', x))
第二个是去掉一些特殊字符(我不知道怎么表达这种双引号,比如; 这些与普通引号“’‘”
不同):'""'
df[col].apply(lambda x: re.sub(r'[“’‘”]', '', x))
我想用一行代码将它们全部删除。我试图简单地将第二个完全匹配添加到第一个,但事实证明文本中没有删除第二个匹配。我想知道为什么以及如何有效地删除这些punctuations
.
需要清理的示例文本可能是:
text = '“Client” refers to Client or “”any User uploads or otherwise supplies to, or stores in, the Services under Client’s account.'
慕桂英546537
相关分类