通过将单词与英语单词白名单进行比较来检查单词是否是英语的快速(er)方法?

我试图从许多 (100k) 预处理文本文件中消除所有非英语单词(porter 词干和小写,删除所有非 az 字符)。我已经将这个过程并行化以加快速度,但它仍然非常缓慢。在python中有没有更有效的方法来做到这一点?


englishwords = list(set(nltk.corpus.words.words()))

englishwords = [x.lower() for x in list(englishwords)]

englishwords = [ps.stem(w) for w in englishwords]

# this step takes too long:

shareholderletter= ' '.join(w for w in nltk.wordpunct_tokenize(shareholderletter) if w in englishwords)


跃然一笑
浏览 146回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python