我需要为 spark 中数据集的每一行调用一个休息服务。我生成了以下代码:
import requests
df= spark.read.parquet("file.parquet")
for row in df.rdd.collect():
requests.post('rest.api/endpoint')
我不确定这是否是最好的方法,性能方面。有没有更好的方法来实现它?
慕丝7291255
相关分类