apache spark加载内部文件夹

首页课程实战体系课手记专栏慕课教程

apache spark加载内部文件夹

import findspark

findspark.init('C:\spark')

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

a = []

i=1880

while i<2018:

a.append(str(i)+'/'+str(i)+'verr.csv')

i = i+1

dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a)

我运行代码，但出现错误；dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a) TypeError: can only concatenate str (not "list" ) 到 str

我有一个“C:\venq\uyh\1880\1880\verr.csv”格式的循环。我在嵌套文件夹中有 csv 文件。我想用火花阅读它们。但是我收到以下错误。我该如何解决这个问题？谢谢

慕丝7291255

浏览 210回答 1

1回答

鸿蒙传说

变量“a”是文件列表。dataset1 = spark.read.format('csv').option('header','true').load('C://venq/uyh/'+ a)在这里，您尝试将字符串 'C://venq/uyh/' 与 'a' 连接起来，这是一个列表 - 这会引发错误。尝试root = r"C://venq/uyh/"while i<2018:    a.append(root + str(i)+'/'+ str(i)+'verr.csv')    i = i+1然后直接使用dataset1 = spark.read.format('csv').option('header','true').load(a)

0 0

随时随地看视频慕课网APP