默认情况下,spark(2.4.4)使用 MapReduce.fileoutputcommitter.algorithm.version 1。我正在尝试将其更改为版本 2。 spark-UI 并sparkCtx._conf.getAll()
显示版本 2,但 pyspark 仍然使用版本 1(临时文件夹)将数据写入 S3正在创建)。我已经尝试过这些东西。
spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version 2
在 spark-defaults.conf 中设置
为 spark 会话定义 config("spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version","2")。
df.write 中的设置选项如下: df.write.option("mapreduce.fileoutputcommitter.algorithm.version", "2")
慕田峪9158850
相关分类