继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

Spark-Hadoop集群

慕标5832272
关注TA
已关注
手记 1222
粉丝 229
获赞 1001

我是一名Spark学习的初学者,第一步先学着如何搭建一个开发环境,进而实现开发,方便后面学习。
为了学习Spark,当我们编写代码时希望可以使用Hadoop的HDFS等,因此搭建伪分布式集群,编写完代码调试完毕之后进行submit到集群中运行。这种适用于个人开发,因为笔记本的内存有限,创建多个虚拟机构成集群开发实在是太耗内存。

下载scala2.11 hadoop2.7 spark2.1.0-bin-hadoop2.7

解压完上述tgz包之后设置环境变量
构建Spark以及Hadoop分布式集群时,配置/etc/profile文件

export JAVA_HOME=/usr/local/java/jdk1.8.0export PATH=$JAVA_HOME/bin:$PATHexport CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport PATH JAVA_HOME CLASSPATHexport SCALA_HOME=/home/zk/spark/scala-2.11.0export PATH=$PATH:$SCALA_HOME/binexport HADOOP_HOME=/home/zk/spark/hadoop-2.7.3export PATH=$PATH:$HADOOP_HOME/binexport SPARK_HOME=/home/zk/spark/spark-2.1.0-bin-hadoop2.7export PATH=$PATH:$SPARK_HOME/bin

配置Hadoop单机伪分布式

在etc/hadoop/hadoop-env.sh里面设置JAVA路径

export JAVA_HOME=/usr/local/java/jdk1.8.0

在etc/hadoop/core-site.xml:

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://host_name:9000</value>
    </property></configuration>

在etc/hadoop/hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property></configuration>

此时单机情况下的hadoop就配置完成了,然后需要配置ssh localhost 免密码登陆

  ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
  cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  chmod 0600 ~/.ssh/authorized_keys

此时就配置完毕了,可以启动hadoop了
1,格式化文件
bin/hdfs namenode -format
2, 启动dfs
sbin/start-dfs.sh
3,查看jps

5248 NameNode
5447 DataNode
5820 SecondaryNameNode
6156 Jps

配置Spark

1, 到spark的conf目录下 copy一份spark-env.sh.template
cp spark-env.sh.template spark-env.sh

2,修改spark-env.sh

export JAVA_HOME=/usr/local/java/jdk1.8.0export SCALA_HOME=/home/zk/spark/scala-2.11.0export SPARK_MASTER_IP=host_nameexport SPARK_WORKER_MEMORY=2gexport HADOOP_CONF_DIR=/home/zk/spark/hadoop-2.7.3/etc/hadoop

3, 启动spark,到sbin目录下调用./start-all.sh

4,查看jps

5248 NameNode
6178 Master
5447 DataNode
6264 Worker
6779 Jps
5820 SecondaryNameNode

可以看到基本的Spark Hadoop单机分布式已经成功搭建好了。

下一部工作就是搭建IDEA开发环境开发应用程序。



作者:kason_zhang
链接:https://www.jianshu.com/p/b1227abe2ad1


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP