猿问
下载APP

storm集群内存能大数据吗?

storm集群内存能大数据吗


波斯汪
浏览 173回答 1
1回答

MYYA

1,SpkvStHOOPO有什么相似之处和不同之处?Hadoop:分布式批次计算,强调批处理,经常用于数据挖掘和分析火花:基于内存计算的开源集群计算系统,旨在使数据分析更快。SARK是一种开源的集群计算环境,类似于Hadoop,但两者之间存在一定的差异。有用的差异使得火花在某些工作负载中更出色。换句话说,SCAP使内存中的分布式数据集除了提供交互式查询外,还优化了迭代工作量。Scale是在Scala语言中实现的,它使用Scala作为应用框架。与Hadoop不同,SCAP和斯卡拉是紧密集成的,其中斯卡拉可以像本地集合对象一样轻松地操作分布式数据集。虽然SCAP是为了支持分布式数据集上的迭代作业而创建的,但实际上它是对Hadoop的补充,并且可以在Hadoop文件系统上并行运行。这种行为可以通过第三方集群框架MIOS来支持。SARK,由加利福尼亚大学,伯克利,AMP实验室(算法,机器,和人民网)开发,可以用来建立大,低延迟数据分析应用。虽然SCAP与Hadoop类似,但它提供了一个新的集群计算框架,并有很大的差异。首先,SCAP是针对集群计算中的特定类型的工作负载而设计的,即在并行操作之间重用工作集(例如机器学习算法)的那些。为了优化这些类型的工作负载,SCAP引入了内存集群计算的概念,其中数据集可以缓存在存储器中以减少访问延迟。简化的原语使得并行批处理程序非常简单和优美。SCAP提供许多类型的数据集操作,与Hadoop不同,Hadoop只提供映射和还原操作。例如,映射、筛选器、平面图、样本、组ByKy、RealEyByKy、联合、联接、COMPUTE、MaValm、排序、PATISOBY和许多其他类型的操作,它们称这些操作转换。它还提供计数、收集、缩小、查找、保存和许多其他操作。这些类型的数据集操作类型为上层用户提供了便利。处理节点之间的通信模型不再是像Hadoop那样的数据交换的唯一模式。用户可以命名、实现、控制中间结果的划分等。可以说,编程模型比Hadoop更灵活。2。火花比其他工具更具容错性吗?SCAPLE的纸弹性分布式数据集:内存内集群计算的Afur宽容抽象并没有显示出良好的容错性。相反,检查点分布数据集有两种方式,一种是检查点数据,另一种是日志更新。星火似乎采用了后者。然而,后来提到,尽管后者似乎节省了存储空间。但是由于数据处理模型是一种DAG型的操作过程,由于图中存在节点错误,由于链链的依赖性复杂,可能会导致所有计算节点的重新计算,因此成本不低。他们后来说,它是存储数据,或保存和更新日志。检查点是最终决定权。没什么好说的,把球踢给用户。因此,我认为这取决于用户选择一个成本更低的策略来存储数据IO和磁盘空间并重新计算,这取决于业务类型。SARK不保留中间结果或建立检查点,而是记住产生某些数据集的操作序列。因此,当节点失败时,SCAP根据存储信息重构数据集。他们认为这也很好,因为其他节点将有助于重建。三。火花的数据处理能力和效率有什么特点?SCAP提供高性能和大数据处理能力,让用户快速获得反馈体验更好。另一种应用是进行数据挖掘,因为SCAPK充分利用内存缓存,使用DAG消除不必要的步骤,因此更适合做迭代操作。相当数量的机器学习算法是迭代收敛算法,因此适合使用SCAK来实现。我们使用SARK并行化一些常用的算法,这些算法可以很容易地从R语言中调用,并降低了数据挖掘的学习成本。SCAP附带了一个流数据处理模型,它对Twitter的风暴框架采取了一种有趣且独特的方法。风暴基本上就像是一个独立事务的管道,在那里交易将被分发。相反,SCAPK使用模型来收集事务,然后在短时间内对事件进行批次(假设为五秒)。所收集的数据成为它们自己的RDD,然后使用集合进行处理。
打开App,查看更多内容
随时随地看视频慕课网APP
我要回答