五、Scala 和Spark 安装
Scala的安装比较简单,下载安装包,解压,然后配置环境变量即可使用。
1. Scala 安装
下载Scala http://www.scala-lang.org/download/2.11.6.html
为保持统一,我们将安装的程序都放在/usr目录下,在/usr目录下创建Scala文件夹
sudo mkdir /usr/scala
解压
tar zxvf scala-2.11.6.tgz sudo mv scala-2.11.6.tgz /usr/scala/
在/etc/profile中添加scala环境变量
sudo vim /etc/profile
添加以下内容:
export SCALA_HOME=/usr/scala/scala-2.11.6export PATH=$PATH:$SCALA_HOME/bin
使修改立刻生效:
source /etc/profile
测试Scala是否安装成功
scala -version // 查看Scala的版本
Scala运行测试
2. Spark安装
spark的安装和hadoop有些相近,添加环境变量,修改配置文件。
2.1 spark下载
下载spark:http://www-eu.apache.org/dist/spark/spark-1.6.2/
这里我们下载:spark-1.6.2-bin-hadoop2.6.tgz
我的程序放置路径为:
程序路径.png
解压:
tar zxvf spark-1.6.2-bin-hadoop2.6.tgz
2.2 添加环境变量
在/etc/profile中添加spark环境变量,如下:
export SPARK_HOME=/home/hadoop/package/spark-1.6.2-bin-hadoop2.6export PATH=$PATH:$SPARK_HOME/bin
是的修改立刻生效
source /etc/profile
2.3 修改配置文件
配置文件在spark-1.6.2-bin-hadoop2.6/conf 文件夹下,因此进入文件配置
2.3.1 修改spark-env.sh
conf文件下只有spark-env.sh.template,因此我们copy一份
cp spark-env.sh.template spark-env.sh
该文件中是一个模板文件里面有没有配置,我们再其中添加java,Scala,hadoop,spark的环境变量,以使其能够正常到运行,具体添加内容为:
export JAVA_HOME=/usr/java/jdk1.8.0_91export SCALA_HOME=/usr/scala/scala-2.11.6export SPARK_MASTER=192.168.56.112export SPARK_WORKER_MEMORY=1gexport HADOOP_HOME=/home/hadoop/package/hadoop-2.7.2/etc/hadoop
2.3.2 修改slaves
操作步骤同上,
cp slaves.template slaves
添加以下内容:
master slave1 slave2
至此所有安装都已完成,剩下的就是用同样的方法去配置另外的机器,由于其他机器是clone出来的,所以路径都一样,直接将 配置好的spark文件夹和/usr/scala 文件夹和环境变量文件/etc/profile,copy到其他机器即可。
3. 测试spark集群
在master机器上启动hadoop
./hadoop-2.7.2/sbin/start-all.sh
启动spark
./spark-1.6.2-bin-hadoop2.6/sbin/start-all.sh
如果不出问题的话,此时你的spark集群已经成功启动,查看集群情况,
http://192.168.56.112:8080/ // ip换成你自己的master地址
会出现一下界面,
集群监控界面
如果你跟着教程走到了这一步,那么恭喜你已经进入大数据开发的海洋,我也是一名初学者,以后还会继续发布spark学习相关的文章,还望继续支持。
作者:kakasyw
链接:https://www.jianshu.com/p/09143312dd94