Spark从零开始_技术笔记_课程笔记

熊手拉猫手 2023-03-21

Spark Core ：任务调度，内存管理，容错机制
RDDs ：弹性分布式数据集
Spark SQL：处理结构式数据
Mlib：机器学习相关的包（支持集群扩展，python 缺点是单机性能有限）

0赞 · 0采集
霜花似雪 2022-11-06

spark core:
    包含spark的基本功能，任务调度，内存管理，容错机制
    内部定义了RDDs，弹性分布式数据集
spark sql:
    是spark处理结构化数据的库
spark streaming：
    实时数据流处理组件
milb:
    包含通用机器学习功能的包，分类，聚类，回归
    支持起群上的横向扩展
graphx:
    处理图的库，并进行图的并行计算
cluster managers：
    集群管理

紧密集成的优点
    spark底层优化了，基于spark的底层组件也会得到相应的优化。
紧密继承节省了各个组价组合使用时的部署，测试等时间
向spark增加新的组件时，其他组件，可立刻享用新组建的功能。

0赞 · 0采集
Jason_小杰 2021-08-28

spark core

0赞 · 0采集
Jason_小杰 2021-08-28

spark的生态

0赞 · 0采集
慕用8382810 2021-04-06

思路，PPT

截图
0赞 · 0采集
慕粉1446071354 2020-05-24

紧密集成的优点：
Spark底层优化了，基于Spark底层的组件，也得到了相应的优化
紧密集成，节省了各个组件组合使用时的部署、测试等时间
向Spark增加新的组件时，其他组件，可立即享用新组件的功能

0赞 · 0采集
宝慕林1412387 2020-04-15

spark core功能

截图
0赞 · 0采集
宝慕林1412387 2020-04-15

spark组件

截图
0赞 · 0采集
慕少7317271 2020-03-15

1、Spark底层优化了，基于Spark底层的组件，也得到了相应的优化。
2、紧密集成，节省了各个组件组合使用时的部署，测试等时间。
3、向Spark增加新的组件时，其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能，包含任务调度，内存管理，容错机制等。
2、内部定义了RDDs（弹性分布式数据集）。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景，为其他组件提供底层的方服务。

0赞 · 0采集
BridgetMa 2019-11-14

spark stream处理实时流数据，如收集从kafaka处理的数据进行实时统计

截图
0赞 · 0采集
BridgetMa 2019-11-14

sparkSQL处理结构化数据库

截图
0赞 · 0采集
慕仰2907144 2019-10-05

Spark组件具有紧密集成的优点：
1、Spark底层优化了，基于Spark底层的组件，也得到了相应的优化。
2、紧密集成，节省了各个组件组合使用时的部署，测试等时间。
3、向Spark增加新的组件时，其他组件可以立刻享用新组件的功能
Spark Core:
1、包含Spark的基本功能，包含任务调度，内存管理，容错机制等。
2、内部定义了RDDs（弹性分布式数据集）。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景，为其他组件提供底层的方服务。

0赞 · 0采集
xyx8888 2019-08-08

Spark采用紧密集成框架的优势

截图
0赞 · 0采集
xyx8888 2019-08-07

Spark 集群管理

截图
0赞 · 0采集
xyx8888 2019-08-07

Graphx

截图
0赞 · 0采集
xyx8888 2019-08-07

Spark Streaming

截图
0赞 · 0采集
xyx8888 2019-08-07

Mlib --

截图
0赞 · 0采集
xyx8888 2019-08-07

Spark SQL

截图
0赞 · 0采集
xyx8888 2019-08-07

Spark Core

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark组件具有紧密集成的优点：
1、Spark底层优化了，基于Spark底层的组件，也得到了相应的优化。
2、紧密集成，节省了各个组件组合使用时的部署，测试等时间。
3、向Spark增加新的组件时，其他组件可以立刻享用新组件的功能。

截图
0赞 · 0采集
gongwanyi 2019-08-04

Clusters Managers:
就是集群管理，Spark自带一个集群管理的单独调度器。
常见的集群管理包括Hadoop YARN，Apache Mesos

截图
0赞 · 0采集
gongwanyi 2019-08-04

Graphx：
是处理图的库（例如，社交网络图），并进行图的并行计算。像Spark Streaming，Spark SQL一样，它也继承了RDD API。
它提供了各种图的操作，和常用的图算法，例如PangeRank算法。
应用场景，图计算。

截图
0赞 · 0采集
gongwanyi 2019-08-04

Mlib:
一个包含通用机器学习功能的包，Machine learning lib。
包含分类，聚类，回归等，还包括模型评估，和数据导入。

MLlib提供上面的这些方法，都支持集群上的横向拓展。
应用场景：机器学习

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark Streaming:
是实时的数据流处理组件，类似Storm。
Spark Streaming提供了API来操作实时数据流数据
应用场景，企业中用来从Kafka来接收数据做实时统计

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark SQL:
是Spark处理结构化数据的库，就像Hive SQL、Mysql一样。
应用场景：企业中用来做报表统计

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark Core:
1、包含Spark的基本功能，包含任务调度，内存管理，容错机制等。
2、内部定义了RDDs（弹性分布式数据集）。
3、提供了很多APIs来创建和操作这些RDDs。
应用场景，为其他组件提供底层的方服务。

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark组件

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark历史

截图
0赞 · 0采集
gongwanyi 2019-08-04

Spark历史
Mapreduce在迭代式计算和交互式上低效，引入了内存存储

截图
0赞 · 0采集
一只藏獒 2019-04-23
spark core:
    包含spark的基本功能，任务调度，内存管理，容错机制
    内部定义了RDDs，弹性分布式数据集
spark sql:
    是spark处理结构化数据的库
spark streaming：
    实时数据流处理组件
milb:
    包含通用机器学习功能的包，分类，聚类，回归
    支持起群上的横向扩展
graphx:
    处理图的库，并进行图的并行计算
cluster managers：
    集群管理

紧密集成的优点
1. spark底层优化了，基于spark的底层组件也会得到相应的优化。
2. 紧密继承节省了各个组价组合使用时的部署，测试等时间
3. 向spark增加新的组件时，其他组件，可立刻享用新组建的功能。
2赞 · 0采集

数据加载中...