我想确切地知道在这个标记器中使用指定的模式对文本做了什么:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')
text_token = text.apply(tokenizer.tokenize)
其中“text”是一个熊猫系列,每一行都是一个句子。
我特别想了解r'[a-zA-Z]\w+\'?\w '* 部分。详细信息(每个组件的解释)将不胜感激。
相关分类