如何使用nltk或python删除停用词

如何使用nltk或python删除停用词

所以我有一个数据集,我想删除使用的停止词

stopwords.words('english')

我正在努力如何在我的代码中使用它只是简单地取出这些单词。我已经有了这个数据集中的单词列表,我正在努力的部分是与此列表进行比较并删除停用词。任何帮助表示赞赏。


慕桂英4014372
浏览 1261回答 3
3回答

慕的地8271018

from nltk.corpus import stopwords# ...filtered_words = [word for word in word_list if word not in stopwords.words('english')]

www说

你也可以做一个设置差异,例如:list(set(nltk.regexp_tokenize(sentence, pattern, gaps=True)) - set(nltk.corpus.stopwords.words('english')))

猛跑小猪

我想你有一个单词列表(word_list),你想从中删除停用词。你可以这样做:filtered_word_list = word_list[:] #make a copy of the word_listfor word in word_list: # iterate over word_list   if word in stopwords.words('english'):      filtered_word_list.remove(word) # remove word from filtered_word_list if it is a stopword
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python