AmosCloud

Library

Have a Question?

If you have any question you can ask below or enter what you are looking for!

SparkSQL

SparkSQL

是什么?

SparkSQL是Spark的一个模块,专门用来进行结构化数据的处理

特点

  • 兼容性
    SparkSQL兼容原有的SparkCore的RDDAPI,
    可以对数据在原有RDD的算子操作的基础上,进行SQL运算
    RDD的算子操作和SQL操作,可以在同一个Spark程序中混合使用

  • 统一的数据访问
    SparkSQL提供了目前数据处理领域,常见的所有数据来源读取方式
    textfile
    avro (与java Serialisable类似是一个apache提供的序列化格式)
    parquet、orc 列式存储的数据格式
    json
    jdbc

  • Hive的兼容

原有Hive的所有HiveSQL的语法、函数、UDF、序列化....
SparkSQL全部兼容
并且SparkSQL还提供了比原有HiveSQL更强大的函数库和语法

  • 可以提供JDBC/ODBC的连接

SparkSQL提供一个类似HiveServer2的服务,可以监听固定端口,等待客户端连接,处理客户端传过来的SQL查询并返回结果

急速入门

  • SparkCore

    • 程序入口:SparkContext
    • 数据抽象:RDD
  • SparkSQL

    • 程序入口:SparkSession
    • 数据抽象:DataFrame、Dataset