PySpark - 读取 csv 跳过自己的标题

首页课程实战体系课手记专栏慕课教程

我遇到的问题是，在使用 Pyspark 读取 CSV 文件时无法跳过我自己的标头read.csv。

CSV 文件看起来像这样：

°°°°°°°°°°°°°°°°°°°°°°°°

° My Header °

° Important Data °

° Data °

°°°°°°°°°°°°°°°°°°°°°°°°

MYROW;SECONDROW;THIRDROW

290;6848;66484

96849684;68463;63848

84646;6484;98718

我不知道如何跳过所有第一行或“n”行。

我尝试过类似的东西：

df_read = spark.read.csv('MyCSV-File.csv', sep=';') \

.rdd.zipWithIndex() \

.filter(lambda x: x[1] > 6) \

.map(lambda x: x[0]) \

.toDF('MYROW','SECONDROW','THIRDROW')

是否有可能免排队，特别是它的速度有多快？数据可能是一些GB。谢谢

慕莱坞森

浏览 128回答 1

江户川乱折腾

您可以在第一行添加过滤器：.filter(lambda line: not line.startswith("°"))另一种选择是将这些行标记为注释：.option("comment", "°")

0 0

随时随地看视频慕课网APP