在 Google Colab 中使用 pyspark

首页课程实战体系课手记专栏慕课教程

在 Google Colab 中使用 pyspark

这是我使用大量 StackOverflow 后的第一个问题，如果我提供的信息不准确或不完整，请纠正我

直到本周，我按照我在整个互联网上找到的众多指南之一设置了一个 colab notebook 来与 pyspark 一起运行，但本周它开始出现一些不同的错误。

使用的代码几乎就是这个：

!apt-get install openjdk-8-jdk-headless -qq > /dev/null

!wget -q https://downloads.apache.org/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

!tar -xvf spark-3.0.0-preview2-bin-hadoop2.7.tgz

!pip install -q findspark

import os

os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"

os.environ["SPARK_HOME"] = "/content/spark-3.0.0-preview2-bin-hadoop2.7"

import findspark

findspark.init()

我尝试将 Java 版本从 8 更改为 11，并使用https://downloads.apache.org/spark/上所有可用的 Spark 构建并相应地更改 HOME 路径。我按照pip freeze在一个指南中看到的那样使用来检查 colab 中使用的 Spark 版本，它说 pyspark 3.0.0 所以我尝试了版本 3.0.0 上的所有版本，但我一直得到的是错误：

Exception: Unable to find py4j, your SPARK_HOME may not be configured correctly

我不太了解为此使用 Java 的必要性，但我也尝试安装 pyj4，!pip install py4j它说我安装时它已经安装了，我尝试了互联网上的每个不同指南，但我无法运行我的 Spark代码了。有谁知道如何解决这一问题？我只将 colab 用于大学目的，因为我的 PC 已经过时而且我对此了解不多，但我真的需要让这个笔记本可靠地运行，所以我怎么知道是时候更新导入的版本了？

慕沐林林

浏览 161回答 0

0回答

随时随地看视频慕课网APP