继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

写给小白的pySpark入门

慕哥9229398
关注TA
已关注
手记
粉丝 201
获赞 918

1. 创建键值对RDD ( Pair RDD)

RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。

首先在本地创建一个word.txt,然后上传到hadoop目录中。

方法a:从文件中加载,来创建键值对RDD

pyspark --queue 队列名   [进入spark]

lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]



作者:Macroholica
链接:https://www.jianshu.com/p/a18fd1e5e8e4


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP