我在集群模式下运行spark并通过JDBC从RDBMS读取数据。
根据Spark 文档,这些分区参数描述了在从多个worker并行读取时如何对表进行分区:
partitionColumn
lowerBound
upperBound
numPartitions
这些是可选参数。
如果我不指定这些,会发生什么:
只有1名工人读取整个数据?
如果它仍然并行读取,它如何分区数据?
largeQ
相关分类