我遇到的问题是,在使用 Pyspark 读取 CSV 文件时无法跳过我自己的标头read.csv。
CSV 文件看起来像这样:
°°°°°°°°°°°°°°°°°°°°°°°°
° My Header °
° Important Data °
° Data °
°°°°°°°°°°°°°°°°°°°°°°°°
MYROW;SECONDROW;THIRDROW
290;6848;66484
96849684;68463;63848
84646;6484;98718
我不知道如何跳过所有第一行或“n”行。
我尝试过类似的东西:
df_read = spark.read.csv('MyCSV-File.csv', sep=';') \
.rdd.zipWithIndex() \
.filter(lambda x: x[1] > 6) \
.map(lambda x: x[0]) \
.toDF('MYROW','SECONDROW','THIRDROW')
是否有可能免排队,特别是它的速度有多快?数据可能是一些GB。谢谢
江户川乱折腾
相关分类