如何仅使用rdd而不是数据帧从spark中的csv中获取N(th)列

我想仅使用 rdd 函数而不是 spark 中的数据框从 csv 文件中选择一列。我已经为它编写了代码。


其他一些列有一个空值。


rdd = spark.sparkContext.textFile(filename)    

rdd_parc = rdd.map(lambda x: x.split(","))

rdd1 = rdd_parc.map(lambda x: x[6] != "")

但是这个解决方案似乎不会选择第 6 列,而是选择地图的元素 6。


样本数据:


Lachine,H,0,,,,"SUMMERLEA, PARC",FR,2016,287826.19201900001,5033164.33193000030,-73.7169573579999,45.4382054

Lachine,H,0,,,,"SUMMERLEA, PARC",FR,2016,287826.19201900001,5033164.33193000030,-73.7169573579999,45.4382054

可以看到有些值为空。我希望我的答案是


SUMMERLEA, PARC

SUMMERLEA, PARC


哆啦的时光机
浏览 144回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python