Spark SQL分析Nginx访问日志 _技术笔记_课程笔记

zrey 2022-04-01
Spark SQL 分布式SQL引擎
底层依赖RDD, 处理结构化数据的一个模块
入口：SparkSession (2.0之后)
```
//Scala 不需要hive则不需要hivesupport
val spark = SparkSession.builder().enableHiveSupport().getOrCreate
```
Spark SQL和hive区别：
Hive基于Mapreduce框架实现SQL操作
Spark SQL拥有Catalyst优化器，支持不同数据源
Spark SQL没有自己的存储， Hive集成HDFS
SparkSQL没有自己的元数据管理，要依赖Hive
Spark SQL 访问 Hive 仓库：
1. SPARK_HOME/conf 下添加 hive-site.xml
2. 启动 thriftserver服务： SPARK_HOME/sbin/start-thriftserver.sh
0赞 · 0采集
weixin_慕容4284592 2019-10-24

sparksql和hive对比
sparksql有catalyst优化器
sparksql 如何访问hive:hive-site.xml放到SPARK_HOME/conf
然后/$SPARK_HOME/sbin/start-thriftserver.sh

0赞 · 4采集

数据加载中...