如何检查apache spark作业的性能

我已经安装了 Apache Spark 2.3.1,需要检查哪个脚本是有效的


问题:


1.如何监控Apache Spark脚本的执行?


2.这些脚本中哪一个是有效的?


rdd = sc.textFile("Readme.txt")

1:


rdd.flatMap(x => x.split(" ")).countByValue()

2:


words = rdd.flatMap(lambda x: x.split(" "))

result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y: x + y)


慕标琳琳
浏览 142回答 1
1回答

HUH函数

使用 spark web ui,它包含监控性能所需的信息 - 时间、执行者统计信息、阶段统计信息、任务统计信息、资源统计信息等。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python