我正在使用HDFS在集群上使用Apache Spark。据我了解,HDFS在数据节点上分发文件。因此,如果在文件系统上放置“ file.txt”,它将被拆分为多个分区。现在我打电话
rdd = SparkContext().textFile("hdfs://.../file.txt")
来自Apache Spark。rdd现在是否已自动与文件系统上的“ file.txt”分区相同?我打电话时会发生什么
rdd.repartition(x)
其中x>那么hdfs使用的分区?Spark会在物理上重新排列hdfs上的数据以在本地工作吗?
示例:我在HDFS系统上放置了一个30GB的文本文件,该文件正在10个节点上分发。Spark是否会使用相同的10个分区?和b)当我调用repartition(1000)时,在整个集群上随机播放30GB?
宝慕林4294392
30秒到达战场
慕工程0101907