Spark - Java - 在不使用 Spark SQL 的数据帧的情况

首页课程实战体系课手记专栏慕课教程

我想以 Parquet 或 Avro 文件的形式获取 Spark 应用程序的输出（我们只使用核心 Spark，并且从事该项目的人员不想将其更改为 Spark SQL）。

当我查找这两种文件类型时，我找不到任何没有 DataFrames 或一般 Spark SQL 的示例。我可以在不使用 SparkSQL 的情况下实现这一目标吗？

我的数据是表格，它有列，但在处理中，将使用所有数据，而不是单个列。它的列是在运行时决定的，所以没有“名称、ID、地址”有点通用的列。它看起来像这样：

No f1 f2 f3 ...

1, 123.456, 123.457, 123.458, ...

2, 123.789, 123.790, 123.791, ...

...

holdtom

浏览 154回答 2

UYOU

您不能在不将其转换为数据帧的情况下将 rdd 保存在镶木地板中。Rdd 没有架构，但镶木地板文件是需要架构的列格式，因此我们需要将其转换为数据帧。您可以使用 createdataframe api

0 0

随时随地看视频慕课网APP