spark 基于 scala 运行在 jvm 环境中 1.7版本以上
spark 不依赖 hadoop
目录:
bin 可执行文件
core streaming python 包含组件源代码
examples 包含单机 job 例子,以供研究
执行命令:
./spark-shell (等待时间较长)
在执行成功后可看到 scala> 提示符,然后就可以使用 python 进行交互了
spark的运行环境:
基于Scala ,运行在JVM,运行环境Java7+
spark下载:
搭建spark不需要Hadoop,下载后解压
虚拟机(Linux)联网状态下,通过 wget+下载链接
Linux解压命令 tar -zxvf spark.....
spark目录
bin目录-可执行文件
core,streaming主要包含组件源代码
examples 包含单机例子
spark的shell:
梳理分布在集群上的数据
可以将数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速迭代计算,实时查询、分析
spark提供了Python shell和Scala shell
Scala shell
/bin/spark-shell
Spark下载,安装;
Spark Shell操作
Spark Shell
复制模板文件,修改参数
Spark举例说明
举例说明:
Scala Shell:
Python Shell
Spark的Shell
Spark目录
Spark下载
Spark运行环境
spark的运行环境:
基于Scala ,运行在JVM,运行环境Java7+
spark下载:
搭建spark不需要Hadoop,下载后解压
虚拟机(Linux)联网状态下,通过 wget+下载链接
Linux解压命令 tar -zxvf spark.....
spark目录
bin目录-可执行文件
core,streaming主要包含组件源代码
examples 包含单机例子
spark的shell:
梳理分布在集群上的数据
可以将数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速迭代计算,实时查询、分析
spark提供了Python shell和Scala shell
Scala shell
/bin/spark-shell
Spark不具有HDFS的存储能力。
Spark下载 安装
Spark运行环境
课程小结
sprak下载、安装
spark shell操作
spark安装
如何修改日志级别【找到log4j.properties,如果不是,则应该拷贝log4j.properties.temp。。。文件,命名为log4j.properties,之后再修改日志级别即可。】
log4j.rootCategory=WARN,console
spark 安装
例子:
如何加载文件并对文件进行相关的操作。
spark 安装
scala shell:
bin/spark-shell
spark安装
python shell:
bin/pyspark
spark安装
spark的shell,
处理分布在集群上的数据。
spark把数据加载到节点的内存中,因此分布式处理可在秒级完成。
快速使迭代式计算、实时查询、分析一般能够在shells中完成。
提供python shells和Scala shells。
spark安装
spark目录介绍
spark的安装,
spark下载:http://spark.apache.org/downloads.html
搭建spark不需要Hadoop,如有Hadoop集群,可下载相应的Hadoop对应的spark安装即可。
spark的安装【必须手动安装,原来scala写的spark是运行在jvm上的。】
安装版本要求:
Spark1.6.2 - Scala 2.10
Spark2.0.0 - Scala 2.11
wget https://archive.apache.org/dist/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.6.tgz
解压:tar -zxvf sp.....
下载Scala: wget https://downloads.lightbend.com/scala/2.10.5/scala-2.10.5.tgz
解压:tar -zxvf xxxxxx
之后下载:IntelliJ IDEA https://www.jetbrains.com/idea/
IntelliJ IDEA注册码:http://idea.lanyus.com/
把数据加载到节点的内存中,使得分布式处理在秒级完成