我正在尝试使用 810 个单独的 tif 文件处理多个文件夹。
文件夹结构:
在尝试为此创建数据框时,我遇到了加载的字节数组为空的问题。我显然需要那些进行处理。
数据框创建:
spark = SparkSession \
.builder \
.appName(name) \
.config("spark.executor.memory", "2g") \
.config("spark.driver.memory", "2g") \
.config("spark.executor.cores", "2") \
.getOrCreate()
file_rdd = spark.read.format('image').load(argv[1] + '/' + '*/*')
Argv 显然包含基本文件夹作为第一个参数。在调试(通过调试器或打印)时,我注意到我的数据框是一堆只有原点集的行,所有其他值要么是 -1 要么是空的。
我主要需要填写字节数组,以及一个来源。虽然,当观察我系统上使用的内存时,有一个明显的峰值,表明它肯定加载了一些东西。
我做错了什么或不受支持?
阿波罗的战车
相关分类