下面的问题有 scala 和 pyspark 的解决方案,这个问题中提供的解决方案不适用于连续的索引值。
Spark Dataframe:如何添加索引列:又名分布式数据索引
我在 Apache-spark 中有一个现有数据集,我想根据索引从中选择一些行。我打算添加一个索引列,其中包含从 1 开始的唯一值,并根据该列的值获取行。我发现以下方法可以添加使用排序依据的索引:
df.withColumn("index", functions.row_number().over(Window.orderBy("a column")));
我不想使用排序依据。我需要索引的顺序与它们在数据集中的顺序相同。有什么帮助吗?
阿晨1998
UYOU
相关分类