PySpark - 读取 csv 跳过自己的标题

我遇到的问题是,在使用 Pyspark 读取 CSV 文件时无法跳过我自己的标头read.csv。

CSV 文件看起来像这样:


°°°°°°°°°°°°°°°°°°°°°°°°

°      My Header       °

°    Important Data    °

°        Data          °

°°°°°°°°°°°°°°°°°°°°°°°°


MYROW;SECONDROW;THIRDROW

290;6848;66484

96849684;68463;63848

84646;6484;98718

我不知道如何跳过所有第一行或“n”行。

我尝试过类似的东西:


    df_read = spark.read.csv('MyCSV-File.csv', sep=';') \

        .rdd.zipWithIndex() \

        .filter(lambda x: x[1] > 6) \

        .map(lambda x: x[0]) \

        .toDF('MYROW','SECONDROW','THIRDROW')

是否有可能免排队,特别是它的速度有多快?数据可能是一些GB。谢谢


慕莱坞森
浏览 121回答 1
1回答

江户川乱折腾

您可以在第一行添加过滤器:.filter(lambda line: not line.startswith("°"))另一种选择是将这些行标记为注释:.option("comment", "°")
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python