我有一个包含以下列(Accident_Id、Date、Area)和数百行的 CSV 数据集。我想要实现的是按区域列分组到可能的唯一组中并找到每个组的计数。
我知道如何用 SQLContext 做到这一点,但我不确定它是如何用 JavaRDD 实现的,它的动作(map、reduce 等......)
SparkConf conf = new SparkConf().setAppName("test").setMaster("local[2]");
JavaSparkContext sc = new JavaSparkContext(conf);
JavaRDD<String> data = sc.textFile(pathToCSV);
...
sqlContext.sql("SELECT COUNT(Area) FROM my_table GROUP BY Area").show();
慕婉清6462132
慕少森
随时随地看视频慕课网APP
相关分类