我一直在研究一个简单的 wordcount 程序,该程序在输入文本时打印出每个单词的出现次数。
reduce 函数如下所示:
def reducer(self, word, count):
yield(word, sum(count))
上面的 reducer() 可以正确地计算输入文本文件中每个单词的出现次数。
现在,我想调整 reduce() 函数,以便在输出文件中只打印出现 10 次或更多的单词。我想,它可能是这样的:
def reducer(self, word, count):
if sum(count)>10:
emit(word,sum(count))
然而这行不通。相反,生成的输出文件按每个单词打印 0。我很确定 reducer() 函数需要调整,而不是 map 函数。但是,除了包含 if 语句之外,我想不出任何其他内容。我真的很感激一些建议。
慕标5832272
Helenr
相关分类