我已经使用 EMR(pyspark) 将 pyspark 数据帧作为镶木地板写入 s3,该数据由列 (A) 分区,即 StringType()
在 S3 中,数据看起来像这样
table_path:
A=0003
part-file.parquet
A=C456
part-file.parquet
当我使用 pyspark 将其作为数据帧读回时,我在数据帧的“A”列中丢失了前导零。这是数据的样子
df = spark.read.parquet(table_path)
df.show()
| A | B |
| 3 | ..|
|C456| ..|
我不想在这里丢失前导零。预期结果是:
| A | B |
|0003| ..|
|C456| ..|
MMTTMM
相关分类