集合运算
RDDs支持数学集合的计算,例如并集、交集等
rdd transformations(转换二)操作:集合运算
1.distinct :去除重复
2.subturast: rdd1.subtruast(rdd2),rdd1中有的,而rdd2中没有的
3.union。并集:rdd1.union(rdd2),取rdd1和rdd2中所有的数据
4.innter:交集:取rdd1与rdd2相同的部分
val rdd_distinct = rdd1.distinct()
val rdd_union = rdd1.union(rdd2)
val rdd_inter = rdd1.intersection(rdd2)
val rdd_sub = rdd1.subtract(rdd2)
Map() Filter() Flatmap()压扁
rdd transformations(转换二)操作:集合运算
1.distinct :去除重复
2.subturast: rdd1.subtruast(rdd2),rdd1中有的,而rdd2中没有的
3.union。并集:rdd1.union(rdd2),取rdd1和rdd2中所有的数据
4.innter:交集:取rdd1与rdd2相同的部分
5. subtract 包含 rdd1有rdd2的没有的部分
distinct:驱虫
union:合并
intersection:交集
subtract:差集
集合运算
RDDs支持数学集合的计算,例如并集、交集等
val rdd_distinct = rdd1.distinct()
val rdd_union = rdd1.union(rdd2)
val rdd_inter = rdd1.intersection(rdd2)
val rdd_sub = rdd1.subtract(rdd2)
Transformation(3)
集合运算 union intersection distinct
rdds课程小结,集合运算,map、filter、flatmap等
求一个rdds在另一个rdds的包含,请用rdd1.subtract(rdd2),如下图所示:
rdds求交集,如rdd1.intersection(rdd2),如下图所示:
合并rdds用,rdd1.union(rdd2),如下图所示:
RDDs去重,如rdd1.distinct()
如何定义RDDs,声明如下图所示:
集合运算:
并集:rdd1.union(rdd2)
交集:rdd1.intersection(rdd2)
去重: rdd1.distinct()
一个集合有而另一个没有: rdd1.subtract(rdd2)
MAP() Filter() Flatmap()压扁
rdd transformations(转换二)操作:集合运算
1.distinct :去除重复
2.subturast: rdd1.subtruast(rdd2),rdd1中有的,而rdd2中没有的
3.union。并集:rdd1.union(rdd2),取rdd1和rdd2中所有的数据
4.innter:交集:取rdd1与rdd2相同的部分
5. subtract 包含 rdd1有rdd2的没有的部分