课程章节
课程/MySQL/数据库
Spark SQL分析Nginx访问日志
介绍
章节
问答
笔记
第1章 课程介绍
课程简介
第2章 认识Spark SQL
Spark SQL和Hive
Spark SQL运行原理
DataFrame、DataSet和RDD的联系
Parquet列式存储
第3章 DataFrame/DataSet常用操作
一般操作:查找和过滤
聚合操作:groupBy和agg
单表操作:列的增删改与空值处理
多表操作:join (1)
多表操作:join (2)
第4章 自定义函数和开窗函数
自定义函数:UDF
自定义聚合函数:UDAF
开窗函数:row_number()
第5章 Nginx访问日志分析完整实战
项目场景介绍及分析
第一次数据清洗:格式化原始日志数据
第二次数据清洗:解析数据并按天以Parquet格式存储
将分析结果批量写入MySql
性能监控及优化
第6章 课程总结
课程总结