Pyspark 无法从 pathlib 对象加载

首页课程实战体系课手记专栏慕课教程

Pyspark 无法从 pathlib 对象加载

Python Version 3.7.5

Spark Version 3.0

Databricks Runtime 7.3

我目前正在使用数据湖文件系统中的路径。

这是

p = dbutils.fs.ls('dbfs:/databricks-datasets/nyctaxi')

print(p)

[FileInfo(path='dbfs:/databricks-datasets/nyctaxi/readme_nyctaxi.txt', name='readme_nyctaxi.txt', size=916),

FileInfo(path='dbfs:/databricks-datasets/nyctaxi/reference/', name='reference/', size=0),

FileInfo(path='dbfs:/databricks-datasets/nyctaxi/taxizone/', name='taxizone/', size=0),

FileInfo(path='dbfs:/databricks-datasets/nyctaxi/tripdata/', name='tripdata/', size=0)]

现在，为了将其转换为有效的 Pathlib Posix 对象，我通过函数传递它

def create_valid_path(paths):

return Path('/dbfs').joinpath(*[part for part in Path(paths).parts[1:]])

的输出tripdata是

PosixPath('/dbfs/databricks-datasets/nyctaxi/tripdata')

现在，如果我想在将 csv 的子集收集到列表中后将其读入 Sparkdata 框架。

from pyspark.sql.functions import *

df = spark.read.format('csv').load(paths)

这返回

AttributeError: 'PosixPath' object has no attribute '_get_object_id'

现在，我可以让它工作的唯一方法是手动添加路径dbfs:/..并将每个项目返回到字符串，但是有必要使用 Pathlib 来执行一些基本的 I/O 操作。我是否遗漏了一些简单的东西，或者 Pyspark 根本无法读取 pathlib 对象？

例如

trip_paths_str = [str(Path('dbfs:').joinpath(*part.parts[2:])) for part in trip_paths]

print(trip_paths_str)

['dbfs:/databricks-datasets/nyctaxi/tripdata/fhv/fhv_tripdata_2015-01.csv.gz',

'dbfs:/databricks-datasets/nyctaxi/tripdata/fhv/fhv_tripdata_2015-02.csv.gz'...]

青春有我

浏览 386回答 1

1回答

慕标琳琳

那么这样做怎么样？from pyspark.sql.functions import * import osdef db_list_files(file_path):  file_list = [file.path for file in dbutils.fs.ls(file_path) if os.path.basename(file.path)]  return file_listfiles = db_list_files('dbfs:/FileStore/tables/') df = spark.read.format('text').load(files)df.show()

0 0

随时随地看视频慕课网APP