本课中将系统的讲解Spark SQL的核心知识,并以实战的方式,通过分析Nginx访问日志的实战例子,帮助同学们领略SparkSQL强大简便的数据分析能力,洞悉SparkSQL调优方式及其核心思想。
本课程不是Spark零基础入门课程,需要同学们在学习之前:
1、熟悉Spark的RDD是什么
2、用Spark Shell写过简单的迭代运算
3、使用过Scala开发简单的Spark项目
4、了解Hadoop的HDFS原理
5、了解Hive的简单使用
6、了解Linux基本命令
7、有Java开发基础
1、DataFrame/DataSet查询操作(过滤,分组,排序)
2、Spark SQL自定义函数和窗口函数
3、Parquet列式存储