Spark：读取 tif 图像数据帧时仅包含具有空字节数组的行

-1s 表示对应的图片无效。如果您添加dropInvalid选项并将其设置为True，则这些选项可能根本不存在。Spark 使用 Java 的ImageIO库来读取图像。ImageIO利用插件支持不同的图像格式。Java 版本高达 8 只附带 JPEG、PNG、BMP、WBMP 和 GIF 插件。Java 9 为 TIFF 添加了一个标准插件。由于 Spark 官方仅支持 Java 8，因此您的选择是使用 3rd 方 TIFF 插件ImageIO，例如由 Stack Overflow 用户提供的这个插件。要使用上述插件，请在 Spark 会话配置中添加如下内容：.config("spark.jars.packages", "com.twelvemonkeys.imageio:imageio-tiff:3.5,com.twelvemonkeys.imageio:imageio-core:3.5") \您可以在Maven 索引中跟踪包版本。

Spark：读取 tif 图像数据帧时仅包含具有空字节数组的行

1回答