我有在python数据帧中本地运行的以下python代码:
df_result = pd.DataFrame(df
.groupby('A')
.apply(lambda x: myFunction(zip(x.B, x.C), x.name))
我想在PySpark中运行它,但是在处理pyspark.sql.group.GroupedData对象时遇到了麻烦。
我尝试了以下方法:
sparkDF
.groupby('A')
.agg(myFunction(zip('B', 'C'), 'A'))
哪个返回
KeyError: 'A'
我猜想是因为“ A”不再是一列,而且我找不到x.name的等效项。
接着
sparkDF
.groupby('A')
.map(lambda row: Row(myFunction(zip('B', 'C'), 'A')))
.toDF()
但出现以下错误:
AttributeError: 'GroupedData' object has no attribute 'map'
任何建议将不胜感激!
智慧大石
相关分类