我花了几天的时间尝试使Spark与Jupyter Notebook和Anaconda一起使用。这是我的.bash_profile的样子:
PATH="/my/path/to/anaconda3/bin:$PATH"
export JAVA_HOME="/my/path/to/jdk"
export PYTHON_PATH="/my/path/to/anaconda3/bin/python"
export PYSPARK_PYTHON="/my/path/to/anaconda3/bin/python"
export PATH=$PATH:/my/path/to/spark-2.1.0-bin-hadoop2.7/bin
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark
export SPARK_HOME=/my/path/to/spark-2.1.0-bin-hadoop2.7
alias pyspark="pyspark --conf spark.local.dir=/home/puifais --num-executors 30 --driver-memory 128g --executor-memory 6g --packages com.databricks:spark-csv_2.11:1.5.0"
输入时/my/path/to/spark-2.1.0-bin-hadoop2.7/bin/spark-shell,可以在命令行shell中正常启动Spark。并且输出sc不为空。似乎工作正常。
当我键入时pyspark,它将启动我的Jupyter Notebook罚款。当我创建一个新的Python3笔记本时,出现此错误:
[IPKernelApp] WARNING | Unknown error in handling PYTHONSTARTUP file /my/path/to/spark-2.1.0-bin-hadoop2.7/python/pyspark/shell.py:
而sc在我的笔记本Jupyter是空的。
谁能帮助解决这种情况?
只是想澄清一下:错误结束时在冒号之后没有任何内容。我还尝试使用这篇文章创建自己的启动文件,并在此处引用,这样您就不必再去那里了:
我创建了一个简短的初始化脚本init_spark.py,如下所示:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("yarn-client")
sc = SparkContext(conf = conf)
并将其放在〜/ .ipython / profile_default / startup /目录中
当我这样做时,错误就变成了:
[IPKernelApp] WARNING | Unknown error in handling PYTHONSTARTUP file /my/path/to/spark-2.1.0-bin-hadoop2.7/python/pyspark/shell.py:
[IPKernelApp] WARNING | Unknown error in handling startup files:
智慧大石
相关分类