我需要匿名化包含数千个文件的GB数据。这样做通常需要永远。因此,我计划在我们的服务器上使用一个已经安装的伪分布式Hadoop集群。
对于每个文件中的每个记录,都需要在几列上进行匿名化,这些匿名化的列将存储在哈希图中。
理想情况下,我希望使用一个映射器实例来处理每个文件并生成一个相应的匿名输出文件。此外,映射器应吐出匿名列作为键值对,reducer将这些键值对聚合到单个文件中。
在hadoop框架中可以实现上述过程吗?如果没有,是否有更好的方法来做到这一点?任何帮助或建议,表示赞赏。谢谢。
喵喵时光机
相关分类