分布式缓存


如何使用DistributedCache?





总结

如何使用分布式缓存-----第二步

如何使用分布式缓存-----第二步

如何使用分布式缓存-----第一步

如何使用分布式缓存-----第一步

分布式缓存的简单应用

Hadoop的缓存机制



第1步骤:

第2步骤:

Hadoop分布式缓存:
加载到内存发生在Job执行之前,每个从节点各自都缓存一份相同的共享数据。如果共享数据太大,可以将共享数据分批缓存,重复执行作业。
使用分布式缓存第二步从setup的方法中读取文件流
使用分布式缓存第一步
21321
323424
3242342
3423423
23232
23423423
212323
231312321
324432423
2435345345
13242
分布式缓存
第二部:
在Mapper类或Reducer类中的setup方法中,用输入流获取分布式缓存中的文件。
如何使用distributionCache?
在main方法中加载共享文件的路径,可以是目录或者文件,在路径末尾加#+别名,可以在map阶段使用该别名。
String cache = "hdfs://ipaddress:port/cache/file";
cache = cache + "#myfile";
job.addCacheFile(new Path(cache).toUri,conf);//添加到job配置
Map阶段:
只统计全量的文辞文本中存在的文本,在第一行输出时,由于第三个单词不在全量单词中,所以不做输出。
分布式缓存:
在执行MapReduce时可能Mapper间要共享一些信息,如果信息量不大可以将其加载到HDFS中,这就是Hadoop的缓存机制
分布式缓存机制
Hadoop分布式缓存:
加载到内存发生在Job执行之前,每个从节点各自都缓存一份相同的共享数据,如过共享数据太大,可以将共享数据分批缓存,重复执行作业。
hadoop分布式缓存的背景