Spark - Java - 在不使用 Spark SQL 的数据帧的情况

我想以 Parquet 或 Avro 文件的形式获取 Spark 应用程序的输出(我们只使用核心 Spark,并且从事该项目的人员不想将其更改为 Spark SQL)。


当我查找这两种文件类型时,我找不到任何没有 DataFrames 或一般 Spark SQL 的示例。我可以在不使用 SparkSQL 的情况下实现这一目标吗?


我的数据是表格,它有列,但在处理中,将使用所有数据,而不是单个列。它的列是在运行时决定的,所以没有“名称、ID、地址”有点通用的列。它看起来像这样:


No f1       f2       f3       ...

1, 123.456, 123.457, 123.458, ...

2, 123.789, 123.790, 123.791, ...

...


holdtom
浏览 133回答 2
2回答

UYOU

您不能在不将其转换为数据帧的情况下将 rdd 保存在镶木地板中。Rdd 没有架构,但镶木地板文件是需要架构的列格式,因此我们需要将其转换为数据帧。您可以使用 createdataframe api
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Java