在本地机器(Win10 64、Python 3、Spark 2.4.0)上安装它并设置所有环境变量(HADOOP_HOME、SPARK_HOME 等)后,我试图通过 WordCount.py 文件运行一个简单的 Spark 作业:
from pyspark import SparkContext, SparkConf
if __name__ == "__main__":
conf = SparkConf().setAppName("word count").setMaster("local[2]")
sc = SparkContext(conf = conf)
lines = sc.textFile("C:/Users/mjdbr/Documents/BigData/python-spark-tutorial/in/word_count.text")
words = lines.flatMap(lambda line: line.split(" "))
wordCounts = words.countByValue()
for word, count in wordCounts.items():
print("{} : {}".format(word, count))
从终端运行后:
spark-submit WordCount.py
我得到以下错误。我检查(通过逐行注释)它在
wordCounts = words.countByValue()
知道我应该检查什么才能使它工作吗?
在安装资源方面 - 我按照本教程中的说明进行操作:
从Apache Spark 网站下载 spark-2.4.0-bin-hadoop2.7.tgz
将它解压到我的 C 盘
已经安装了 Python_3(Anaconda 发行版)以及 Java
创建本地 'C:\hadoop\bin' 文件夹来存储 winutils.exe
创建 'C:\tmp\hive' 文件夹并授予 Spark 访问权限
添加了环境变量(SPARK_HOME、HADOOP_HOME 等)
我应该安装任何额外的资源吗?
喵喵时光机
繁花如伊
跃然一笑
相关分类