快速入门Spark SQL的数据分析,并实战分析Nginx访问日志。
本课程不是Spark零基础入门课程,需要同学们在学习之前:
1、熟悉Spark的RDD是什么
2、用Spark Shell写过简单的迭代运算
3、使用过Scala开发简单的Spark项目
4、了解Hadoop的HDFS原理
5、了解Hive的简单使用
6、了解Linux基本命令
7、有Java开发基础
1、DataFrame/DataSet查询操作(过滤,分组,排序)
2、Spark SQL自定义函数和窗口函数
3、Parquet列式存储