我一直在尝试提出标准WordCount v1.0的修改版本 ,其中我从输入目录 (args[0]) 读取所有文件,并将输出打印到输出目录 (args[1 ] )它不仅包含单词和出现次数,还包含匹配发生的文件列表。
因此,例如我有 2 个文本文件:
//1.txt
I love hadoop
and big data
//2.txt
I like programming
hate big data
输出将是:
//Output.txt
I 2 1.txt 2.txt
love 1 1.txt
hadoop 1 1.txt
and 1 1.txt
big 2 1.txt 2.txt
data 2 1.txt 2.txt
like 1 1.txt
programming 1 2.txt
hate 1 2.txt
在这个阶段,我不确定如何提取发生匹配的文件的名称。此外,我不确定如何存储文件名——是使用 Triple 还是需要使用嵌套映射,所以也许是 Map (K1, Map (K2, v))?我不知道在 mapreduce 程序中哪些是可能的,所以任何提示将不胜感激。
aluckdog
相关分类