我有一个预定义的单词列表;例如:
wordlist = [["one"],["two"],["three"]]
我有一个很大的 .txt 文件语料库,也作为列表导入到 python 中,例如:
corpus = ["my friend has one potato",
"i have two bananas and three apples",
"my dad has three apples"]
我想要一个公式,它逐行遍历语料库,并告诉我每行包含的单词表中的单词数量;即,示例性输出将是:
1
2
1
我不需要区分单词表中的单词。
但是,我希望这是一个公式,以便我可以轻松地将它应用于不同的单词列表或语料库。
我还没有在 SO 或其他地方找到答案。我尝试过的是:
wordcount_total=list()
for i in range(len(corpus)):
row=corpus[i]
wordcount_row=sum(1 for word in row.split() if word in wordlist)
wordcount_total.append(wordcount_row)
但是,这给了我:
0
0
0
非常感谢任何愿意提供帮助的人!
相关分类