猿问

文本标记器模式的解释

我想确切地知道在这个标记器中使用指定的模式对文本做了什么:


from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+\'?\w*')

text_token = text.apply(tokenizer.tokenize)

其中“text”是一个熊猫系列,每一行都是一个句子。


我特别想了解r'[a-zA-Z]\w+\'?\w '* 部分。详细信息(每个组件的解释)将不胜感激。


ibeautiful
浏览 125回答 1
1回答
随时随地看视频慕课网APP

相关分类

Python
我要回答