差不多是这样,但是可以有多个master,以及任务是调度到worker节点,资源不是完全池化的
本地模式
ssh是个网络协议,用于远程控制。配置ssh免密防止启动集群的时候每次都要输入密码
使用standalone mode启动spark:命令行输入
$ cd software/spark-2.4.4-bin-hadoop2.7/sbin $ ./start-master.sh 会输出log文件地址xxx $ tail xxx会输出log文件末尾,找到Starting Spark master at spark://xxx.local:7077, 也可以浏览器访问http://localhost:8080/,出现视频中的网页
参考https://uohzoaix.github.io/studies//2014/09/13/sparkRunning/
你是不是spark的环境没有搭好。老师讲的环境是基于hadoop搭建的。
办法一:在spark的conf目录下,在spark-env.sh文件中加入LD_LIBRARY_PATH环境变量LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
办法二:在 ~/.bashrc 设置一下 export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native
试试看有没有用
spark如果你的提交作业的方式是local,是不需要配置任何东西的,视频里面老师都是在spark-shell下进行操作的所以不需要配置任何东西,按照你的说法,spark-shell命令无效是因为没有去到spark的bin目录下执行命令,如果你往/etc/profile或者~/.bash_profile 下进行把spark的bin加入到PATH的的话就可以不用去到bin目录下也可以执行spark-shell。如果你的spark作业是提交在yarn等外部框架上面则需要配置spark-env.sh文件。
这与RDD的分区数量有关,你后面学过这个就会知道的
我也出现了类似问题,请问你是怎么解决的?
refreesh project 杀意四
视频中宿主机是苹果系统,虚拟机中CentOS。
要配置一下 build.sbt 然后保存,idea会自动下载(配置的时候还要看自己的版本进行配置)
内个需要自己添加 ...
也可以不使用SBT添加依赖jar,打开你spark安装目录下/spark-2.1.1/jars
检索spark-core.jar这个名字
就会找到对应的jar包
将这个jar包导入到工程里就可以了
你创建的是JAVA项目才会生成JAVA目录,现在创建的是Scala项目,所以生成的是Scala目录。这个是正确的
重装IDEA
项目名称,JAR包名,其他都是JAR
可以在本地进行开发,打包成jar文件,上传到你的服务器
还没遇到过这样的情况,楼主加油
同意楼上所说的,并且举个很简单的例子我们都知道3*3=9,你也知道可是你却要把3*3写成3*3=3+3+3=9这样会很麻烦,个人观点,不喜勿喷
scala,百度一下就可以知道了