Spark SQL 分布式SQL引擎
底层依赖RDD, 处理结构化数据的一个模块
入口:SparkSession (2.0之后)
//Scala 不需要hive则不需要hivesupport val spark = SparkSession.builder().enableHiveSupport().getOrCreate
Spark SQL和hive区别:
Hive基于Mapreduce框架实现SQL操作
Spark SQL拥有Catalyst优化器, 支持不同数据源
Spark SQL没有自己的存储, Hive集成HDFS
SparkSQL没有自己的元数据管理,要依赖Hive
Spark SQL 访问 Hive 仓库:
1. SPARK_HOME/conf 下添加 hive-site.xml
2. 启动 thriftserver服务 : SPARK_HOME/sbin/start-thriftserver.sh
sparksql和hive对比
sparksql有catalyst优化器
sparksql 如何访问hive:hive-site.xml放到SPARK_HOME/conf
然后/$SPARK_HOME/sbin/start-thriftserver.sh