rdd基本操作之action介绍,
action表示在rdd上计算出来一个结果。
把结果返回给driver program或保存在文件系统,count()、save都算是基本的action。









RDD基本操作之action


小结
take(n):
随机取n个数
collect()
:222222
rdd action:
Action介绍:
在RDD上计算出来一个结果。
把结果返回给driver program或保存在文件系统,count(),save



rdd.reduce((x,y)=>x+y)




Action(3)
Action(2)
Action
23232
foreach():
计算rdd中的每个元素,但不返回到本地。
可以配合println()友好的打印出数据。
top():
排序(根据rdd中数据的比较器),也可以设置为自定义的比较器。
take(n):
返回rdd的n个元素(同时尝试访问最少的partitions)。
返回结果是无序的,测试使用。
collect()操作,
遍历整个rdd,向driver program返回rdd的内容;
需要单机内存能够容纳下(因为数据要拷贝给driver,测试使用)
大数据的时候,使用saveastextfile() action等。
reduce例子,可以做其它类型的聚集操作,
val sum = rdd.reduce((x,y)=>x+y)
reduce的累加操作,
定义rdd
调用collec()
累加计算
action =》reduce()
接收一个函数,作用在rdd两个类型相同的元素上,返回新元素。可以实现,rdd中元素的累加,计数,和其他类型的聚焦操作。
rdd常用的action汇总,
collect()、count()、countbyvalue()、take(num)、top(num)、takeordered(num)(ordering)
rdd基本操作之action介绍,
action表示在rdd上计算出来一个结果。
把结果返回给driver program或保存在文件系统,count()、save都算是基本的action。
Action:

累加:
val rdd=sc.parallelize(array(1,2,3,3))
rdd.collect()
rdd.reducr((x,y)=>x+y)
随机取值
take(n) 返回RDD的n个元素(同时尝试访问最少的partitions)返回结果是无序的,测试使用。
top()排序:根据RDD中数据的比较器。
foreach()计算RDD中的每个元素,但不返回到本地。可以配合println()友好的打印出数据。