配置Spark以与Jupyter Notebook和Anaconda一起使用

我花了几天的时间尝试使Spark与Jupyter Notebook和Anaconda一起使用。这是我的.bash_profile的样子:


PATH="/my/path/to/anaconda3/bin:$PATH"


export JAVA_HOME="/my/path/to/jdk"

export PYTHON_PATH="/my/path/to/anaconda3/bin/python"

export PYSPARK_PYTHON="/my/path/to/anaconda3/bin/python"


export PATH=$PATH:/my/path/to/spark-2.1.0-bin-hadoop2.7/bin

export PYSPARK_DRIVER_PYTHON=jupyter

export PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

export SPARK_HOME=/my/path/to/spark-2.1.0-bin-hadoop2.7

alias pyspark="pyspark --conf spark.local.dir=/home/puifais --num-executors 30 --driver-memory 128g --executor-memory 6g --packages com.databricks:spark-csv_2.11:1.5.0"

输入时/my/path/to/spark-2.1.0-bin-hadoop2.7/bin/spark-shell,可以在命令行shell中正常启动Spark。并且输出sc不为空。似乎工作正常。


当我键入时pyspark,它将启动我的Jupyter Notebook罚款。当我创建一个新的Python3笔记本时,出现此错误:


[IPKernelApp] WARNING | Unknown error in handling PYTHONSTARTUP file /my/path/to/spark-2.1.0-bin-hadoop2.7/python/pyspark/shell.py: 

而sc在我的笔记本Jupyter是空的。


谁能帮助解决这种情况?


只是想澄清一下:错误结束时在冒号之后没有任何内容。我还尝试使用这篇文章创建自己的启动文件,并在此处引用,这样您就不必再去那里了:


我创建了一个简短的初始化脚本init_spark.py,如下所示:


from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("yarn-client")

sc = SparkContext(conf = conf)

并将其放在〜/ .ipython / profile_default / startup /目录中


当我这样做时,错误就变成了:


[IPKernelApp] WARNING | Unknown error in handling PYTHONSTARTUP file /my/path/to/spark-2.1.0-bin-hadoop2.7/python/pyspark/shell.py:

[IPKernelApp] WARNING | Unknown error in handling startup files:


慕仙森
浏览 1108回答 5
5回答

智慧大石

在这里摆弄了一点之后,我刚刚确认安装了sparkmagic(在重新安装了较新版本的Spark之后)。我认为仅此一项是可行的。我不确定,因为在此之前我已经摆弄了一些,但是我将其作为暂定答案,因为它比手工摆弄配置文件简单得多。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python