hadoop 缺点:离线处理,导致时效性差,几分钟几小时为单位
spark 有点:时效性高,在内存里进行
Hadoop应用场景:离线处理、对时效性要求不高(执行时间几分钟到几小时不等);
Spark应用场景:时效性要求高的场景、机器学习等领域。
两者比较:
这是生态系统,每个组件都有其作用,各善其职即可;
Spark不具有HDFS的存储能力,要借助HDFS等持久化数据;
大数据将会孕育出更多的新技术
spark与hadoop
spark计算时效:几秒钟、几分钟
存储:基于内存计算,需要借助hdfs持久化数据
Hadoop应用场景:离线处理、对时效性要求不高(执行时间几分钟到几小时不等);
Spark应用场景:时效性要求高的场景、机器学习等领域。
两者比较:
这是生态系统,每个组件都有其作用,各善其职即可;
Spark不具有HDFS的存储能力,要借助HDFS等持久化数据;
大数据将会孕育出更多的新技术
Hadoop适合处理离线的静态的大数据
Spark适合处理离线的流式的大数据
Storm适合处理在线的实时的大数据
这里还可以写笔记啊
Spark对比Hadoop(2)
Spark对比Hadoop(1)
Hadoop与Spark的比较
Spark应用场景
1、时效性要求高的场景
2、机器学习领域
Hadoop应用场景
1、离线处理
2、对时效性要求不高。
spark与Hadoop的比较
Hadoop的应用场景:离线处理,对时效性要求不高
spark的应用场景:对时效性要求高,机器学习领域
Hadoop适合处理离线的静态的大数据 Spark适合处理离线的流式的大数据 Storm适合处理在线的实时的大数据
Hadoop之父 Doung Cutting的观点
Hadoop和Spark比较
Spark应用场景
Spark是基于内存的,中间数据尽量的不落在硬盘上,尽量存储在内存中,大大加快了Spark运算的计算速度
Hadoop和Spark比较
Haoop应用场景
spark和Hadoop的比较,各善其职即可。
spark不具有hdfs的存储能力,要借助hdfs等持久化数据。
spark应用场景
基于内存处理,时效性要求很高,处理时间在几秒钟到几分钟不等。
Hadoop应用场景
中间处理结果会存在硬盘上,处理时间在几分钟到几小时不等。
Spark和Hadoop的比较
Hadoop应用场景:离线处理、对时效性要求不高,因为hadoop的中间数据在硬盘上
Spark应用场景:时效性要求高的场景&机器学习
两者都是拥有完整的生态系统,每个组件都有其作用,各善其职;
Spark不具有HDFS的存储能力,要借助HDFS等持久化数据
hadoop 离线处理 实时性要求不高的场景,中间计算数据存储在磁盘,处理时间分钟-小时
spark 即时处理 实时性要求高的场景,中间计算数据存储在内存,处理时间秒-分钟