(为什么)我们需要在RDD上调用缓存或持久化
当从文本文件或集合(或从另一个RDD)创建弹性分布式数据集(RDD)时,我们是否需要显式调用“cache”或“persist”来将RDD数据存储到内存中?或者默认情况下RDD数据是以分布式方式存储在内存中的吗?
val textFile = sc.textFile("/user/emp.txt")
根据我的理解,在上面的步骤之后,textFile是一个RDD,并且可以在节点的所有/部分内存中使用。
如果是这样,为什么我们需要在textFile RDD上调用“cache”或“persist”呢?
慕尼黑8549860
小唯快跑啊