Spark Core :任务调度,内存管理,容错机制
RDDs : 弹性分布式数据集
Spark SQL:处理结构式数据
Mlib: 机器学习相关的包(支持集群扩展,python 缺点是单机性能有限)
spark core:
包含spark的基本功能,任务调度,内存管理,容错机制
内部定义了RDDs,弹性分布式数据集
spark sql:
是spark处理结构化数据的库
spark streaming:
实时数据流处理组件
milb:
包含通用机器学习功能的包,分类,聚类,回归
支持起群上的横向扩展
graphx:
处理图的库,并进行图的并行计算
cluster managers:
集群管理
紧密集成的优点
spark底层优化了,基于spark的底层组件也会得到相应的优化。
紧密继承节省了各个组价组合使用时的部署,测试等时间
向spark增加新的组件时,其他组件,可立刻享用新组建的功能。


spark core





spark的生态






紧密集成的优点:
Spark底层优化了,基于Spark底层的组件,也得到了相应的优化
紧密集成,节省了各个组件组合使用时的部署、测试等时间
向Spark增加新的组件时,其他组件,可立即享用新组件的功能
spark core功能
spark组件
1、Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。
2、紧密集成,节省了各个组件组合使用时的部署,测试等时间。
3、向Spark增加新的组件时,其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
Spark组件具有紧密集成的优点:
1、Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。
2、紧密集成,节省了各个组件组合使用时的部署,测试等时间。
3、向Spark增加新的组件时,其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
Spark采用紧密集成框架的优势
Spark 集群管理
Graphx
Spark Streaming
Mlib --
Spark SQL
Spark Core
Spark组件具有紧密集成的优点:
1、Spark底层优化了,基于Spark底层的组件,也得到了相应的优化。
2、紧密集成,节省了各个组件组合使用时的部署,测试等时间。
3、向Spark增加新的组件时,其他组件可以立刻享用新组件的功能。
Clusters Managers:
就是集群管理,Spark自带一个集群管理的单独调度器。
常见的集群管理包括Hadoop YARN,Apache Mesos
Graphx:
是处理图的库(例如,社交网络图),并进行图的并行计算。像Spark Streaming,Spark SQL一样,它也继承了RDD API。
它提供了各种图的操作,和常用的图算法,例如PangeRank算法。
应用场景,图计算。
Mlib:
一个包含通用机器学习功能的包,Machine learning lib。
包含分类,聚类,回归等,还包括模型评估,和数据导入。
MLlib提供上面的这些方法,都支持集群上的横向拓展。
应用场景:机器学习
Spark Streaming:
是实时的数据流处理组件,类似Storm。
Spark Streaming提供了API来操作实时数据流数据
应用场景,企业中用来从Kafka来接收数据做实时统计
Spark SQL:
是Spark处理结构化数据的库,就像Hive SQL、Mysql一样。
应用场景:企业中用来做报表统计
Spark Core:
1、包含Spark的基本功能,包含任务调度,内存管理,容错机制等。
2、内部定义了RDDs(弹性分布式数据集)。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景,为其他组件提供底层的方服务。
Spark组件
Spark历史
Spark历史
Mapreduce在迭代式计算和交互式上低效,引入了内存存储
spark core:
包含spark的基本功能,任务调度,内存管理,容错机制
内部定义了RDDs,弹性分布式数据集
spark sql:
是spark处理结构化数据的库
spark streaming:
实时数据流处理组件
milb:
包含通用机器学习功能的包,分类,聚类,回归
支持起群上的横向扩展
graphx:
处理图的库,并进行图的并行计算
cluster managers:
集群管理
紧密集成的优点
spark底层优化了,基于spark的底层组件也会得到相应的优化。
紧密继承节省了各个组价组合使用时的部署,测试等时间
向spark增加新的组件时,其他组件,可立刻享用新组建的功能。