spark sql

文章/答案/技术大牛

发布

概述官方地址 http://spark.apache.org/sql/ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式...SQL查询引擎的作用。...DataFrame SparkSQL使用的数据抽象是DataFrame ,DataFrame让Spark具备了处理大数据结构化数据的能力，它不仅比原来的RDD转换方式更加简单易用，而且获得了更高的计算能力...Spark 能够轻松实现从Mysql到DataFrame的转化，并且支持SQL查询。...image.png DataFrame创建从Spark2.0以上版本开始，Spark使用全新的SparkSession接口代替Spark1.6的SQLContex以及HiveContext接口

9611 0

Spark SQL

：Spark SQL和Hive on Spark。...（二）Spark SQL架构 Spark SQL架构如图所示，Spark SQL在Hive兼容层面仅依赖HiveQL解析、Hive元数据，也就是说，从HQL被解析成抽象语法树（AST）起...，就全部由Spark SQL接管了。...Spark SQL增加了DataFrame（即带有Schema信息的RDD），使用户可以在Spark SQL中执行SQL语句，数据既可以来自RDD，也可以是Hive、HDFS、Cassandra等外部数据源...，还可以是JSON格式的数据 Spark SQL目前支持Scala、Java、Python三种语言，支持SQL-92规范。

1.4K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

Spark系列 - (3) Spark SQL

Hive 的HiveQL解析，把HiveQL翻译成Spark上的RDD操作；Shark的出现，使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高。...Spark SQL作为Spark生态的一员诞生，不再受限于Hive，只是兼容Hive。...3.2.3 Sql、dataframe、DataSet的类型安全如果使用Spark SQL的查询语句，要直到运行时你才会发现有语法错误（这样做代价很大）。...3.3 Spark SQL优化 Catalyst是spark sql的核心，是一套针对spark sql 语句执行过程中的查询优化框架。...因此要理解spark sql的执行流程，理解Catalyst的工作流程是理解spark sql的关键。而说到Catalyst，就必须提到下面这张图了，这张图描述了spark sql执行的全流程。

1.9K1 0

spark学习笔记：spark sql

org.apache.spark.sql.SQLContext import org.apache.spark....{SparkConf, SparkContext} import org.apache.spark.sql.SparkSession import org.apache.spark.sql.hive.HiveContext...val sqlQuery = Source.fromFile( dataSqlFile ).mkString val dataSqlFrame = SparkConfTrait.spark.sql...def main(args: Array[String]): Unit = { // val sqlQuery = Source.fromFile("path/to/data.sql...def main(args: Array[String]): Unit = { // val sqlQuery = Source.fromFile("path/to/data.sql

9821 0

Flink SQL vs Spark SQL

Spark SQL 的核心是Catalyst优化器，首先将SQL处理成未优化过的逻辑计划（Unresolved Logical Plan），其只包括数据结构，不包含任何数据信息。...也就是说和spark不同， flink 的SQL Parsing, Analysing, Optimizing都是托管给calcite(flink会加入一些optimze rules)....逻辑和spark类似，只不过calcite做了catalyst的事（sql parsing,analysis和optimizing）代码案例首先构建数据源，这里我用了'18-'19赛季意甲联赛的射手榜数据...SQL import org.apache.spark.sql.Dataset; import org.apache.spark.sql.SparkSession; public class SparkSQLTest...subscription.packtpub.com/book/big_data_and_business_intelligence/9781785889271/8/ch08lvl1sec58/the-spark-sql-architecture

4.4K3 2

Spark SQL JOIN

一、数据准备本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。...如下： spark.sql("SELECT ename,dname FROM emp JOIN dept ON emp.deptno = dept.deptno").show() 2.2 FULL OUTER...JOIN empDF.join(deptDF, joinExpression, "outer").show() spark.sql("SELECT * FROM emp FULL OUTER JOIN...spark.sql("SELECT * FROM emp NATURAL JOIN dept").show() 以下是一个自然连接的查询结果，程序自动推断出使用两张表都存在的 dept 列进行连接，其实际等价于...： spark.sql("SELECT * FROM emp JOIN dept ON emp.deptno = dept.deptno").show() 由于自然连接常常会产生不可预期的结果，所以并不推荐使用

1.2K2 0

Spark学习之Spark SQL（8）

Spark学习之Spark SQL（8） 1. Spark用来操作结构化和半结构化数据的接口——Spark SQL、 2....Spark SQL的三大功能 2.1 Spark SQL可以从各种结构化数据（例如JSON、Hive、Parquet等）中读取数据。...2.2 Spark SQL不仅支持在Spark程序内使用SQL语句进行查询，也支持从类似商业智能软件Tableau这样的外部工具中通过标准数据库连接器（JDBC/ODBC）连接Spark SQL进行查询...2.3 当在Spark程序内使用Spark SQL时，Spark SQL支持SQ与常规的Python/Java/Scala代码高度整合，包括连接RDD与SQL表、公开的自定义SQL函数接口等。 3....连接Spark SQL 带有Hive支持的Spark SQL的Maven索引 groupID =org.apache.spark artifactID = spark-hive_2.10

1.4K7 0

Spark Sql系统入门4：spark应用程序中使用spark sql

问题导读 1.你认为如何初始化spark sql？ 2.不同的语言，实现方式都是什么？ 3.spark sql语句如何实现在应用程序中使用？...为了使用spark sql，我们构建HiveContext （或则SQLContext 那些想要的精简版）基于我们的SparkContext.这个context 提供额外的函数为查询和整合spark sql...初始化spark sql 为了开始spark sql，我们需要添加一些imports 到我们程序。如下面例子1 例子1Scala SQL imports [Scala] 纯文本查看复制代码 ?...// Import Spark SQL import org.apache.spark.sql.hive.HiveContext // Or if you can't have the hive dependencies...import org.apache.spark.sql.SQLContext; // Import the JavaSchemaRDD import org.apache.spark.sql.SchemaRDD

1.8K7 0

Spark1.0新特性-->Spark SQL

但是最最重要的就是多了一个Spark SQL的功能，它能对RDD进行Sql操作，目前它只是一个alpha版本，喜欢尝鲜的同志们进来看看吧，下面是它的官网的翻译。...Spark SQL是支持在Spark中使用Sql、HiveSql、Scaca中的关系型查询表达式。...val sc: SparkContext // 已经存在的SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import...sqlContext._ Running SQL on RDDs Spark SQL支持的一种表的类型是Scala的case class，case class定义了表的类型，下面是例子： val sqlContext...Using Parquet val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ val people

1K4 0

Spark笔记11-Spark-SQL基础

Spark SQL基础 Hive Hive会将SQL语句转成MapReduce作业，本身不执行SQL语句。...基本上和Hive的解析过程、逻辑执行等相同将mapreduce作业换成了Spark作业将HiveQL解析换成了Spark上的RDD操作存在的两个主要问题： spark是线程并行，mapreduce...是进程级并行 spark在兼容Hive的基础上存在线程安全性问题 Spark SQL 产生原因关系数据库在大数据时代下不再满足需求：用户要从不同的数据源操作不同的数据，包含结构化和非结构化...用户需要执行高级分析，比如机器学习和图形处理等大数据时代经常需要融合关系查询和复杂分析算法 Spark SQL解决的两大问题：提供DF API，对内部和外部的各种数据进行各种关系操作支持大量的数据源和数据分析算法...，可以进行融合架构 Spark SQL在Hive 兼容层面仅仅是依赖HiveQL解析、Hive元数据执行计划生成和优化是由Catalyst（函数式关系查询优化框架）负责 Spark SQL中增加了数据框

5531 0

Spark SQL | Spark，从入门到精通

/ 发家史 / 熟悉 Spark SQL 的都知道，Spark SQL 是从 Shark 发展而来。...Spark SQL Spark SQL 提供了多种接口：纯 Sql 文本； dataset/dataframe api。...当然，相应的，也会有各种客户端： sql 文本，可以用 thriftserver/spark-sql；编码，Dataframe/dataset/sql。...编程 / Spark SQL 允许用户提交 SQL 文本，支持以下三种手段编写 SQL 文本： 1. spark 代码 2. spark-sql的shell 3. thriftserver 支持...* FROM people").show() 2. spark-sql 脚本 spark-sql 启动的时候类似于 spark-submit 可以设置部署模式资源等，可以使用 bin/spark-sql

2.5K3 0

Spark编程实验三：Spark SQL编程

一、目的与要求 1、通过实验掌握Spark SQL的基本编程方法； 2、熟悉RDD到DataFrame的转化方法； 3、熟悉利用Spark SQL管理来自不同数据源的数据。...二、实验内容 1、Spark SQL基本操作将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。...mysql> select * from employee; 四、结果分析与实验体会 Spark SQL是Apache Spark中用于处理结构化数据的模块。...在使用Spark SQL之前，需要创建一个SparkSession对象。可以使用SparkSession的read方法加载数据。...最后，还掌握了RDD到DataFrame的转化方法，并可以利用Spark SQL管理来自不同数据源的数据。

9341 0

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

什么是 Spark SQL Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块. ...与基本的 Spark RDD API 不同, Spark SQL 的抽象数据类型为 Spark 提供了关于数据结构和正在执行的计算的更多信息. ...在内部, Spark SQL 使用这些额外的信息去做一些额外的优化. 有多种方式与 Spark SQL 进行交互, 比如: SQL 和 Dataset API...., 所以 Spark SQL 的应运而生，它是将 Spark SQL 转换成 RDD，然后提交到集群执行，执行效率非常快！...Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD DataFrame DataSet 二. Spark SQL 的特点 1.

1.5K2 0

Spark2.x学习笔记：15、Spark SQL的SQL

15、 Spark SQL的SQL 15.1 Spark SQL所支持的SQL语法 select [distinct] [column names]|[wildcard] from tableName...SQL的SQL的框架 ?...第2种方法：在Spark配置文件中指定Hadoop配置文件目录（2）Spark SQL与Hive Metastore结合，直接使用spark.sql(“select … from table where...scala> spark.sql("show databases").show +------------+ |databaseName| +------------+ | default| |...test| +------------+ scala> spark.sql("show tables").show +--------+---------+-----------+

1.2K8 0

Shark，Spark SQL，Spark上的Hive以及Apache Spark上的SQL的未来

特别是，Spark SQL将提供来自Shark 0.9服务器的无缝升级路径以及与一般Spark程序集成的新功能。...对于SQL用户，Spark SQL提供了最先进的SQL性能并保持与Shark / Hive的兼容性。...它真正统一了SQL和复杂的分析，允许用户混合和匹配SQL和更高级的分析的命令性编程API。对于开源黑客，Spark SQL提出了一种创新的，优雅的构建查询规划器的方法。...Hiveon Spark项目（HIVE-7292）虽然Spark SQL正在成为SQL on Spark的标准，但我们意识到许多组织已经在Hive上进行了投资。...总之，我们坚信Spark SQL不仅是SQL的未来，而且还是在Spark上的结构化数据处理的未来。我们会努力工作，将在接下来的几个版本中为您带来更多体验。

1.9K2 0

Spark SQL访问Postgresql

随着Spark SQL的正式发布，以及它对DataFrame的支持，它可能会取代HIVE成为越来越重要的针对结构型数据进行分析的平台。...随着Spark SQL的正式发布，以及它对DataFrame的支持，它可能会取代HIVE成为越来越重要的针对结构型数据进行分析的平台。...在博客文章What’s new for Spark SQL in Spark 1.3中，Databricks的工程师Michael Armbrust着重介绍了改进了的Data Source API。..." % sparkVersion, "org.apache.spark" %% "spark-sql" % sparkVersion, "org.postgresql" %...Frame或Spark SQL临时表。

2K7 0

Spark SQL 整体介绍

Spark SQL核心—Catalyst查询编译器 Spark SQL的核心是一个叫做Catalyst的查询编译器，它将用户程序中的SQL/Dataset/DataFrame经过一系列操作，最终转化为Spark...经过上述的一整个流程，就完成了从用户编写的SQL语句（或DataFrame/Dataset），到Spark内部RDD的具体操作逻辑的转化。...HiveContext 和 Spark Sql Content 执行流程比较 sparksql 执行流程图 sqlContext总的一个过程如下图所示 1.SQL语句经过SqlParse解析成UnresolvedLogicalPlan...参考: https://blog.51cto.com/9269309/1845525 *** 8. thriftserver 的优势 spark-shell、spark-sql 都是是一个独立的 spark...注意 spark sql 可以跨数据源进行join，例如hdfs与mysql里表内容join Spark SQL运行可以不用hive，只要你连接到hive的metastore就可以 2.

4501 0

spark sql 生成 json

背景想通过 spark sql 查询 hive 表然后将相应的字段组装成 sql，类似于 json_object ，不过可惜的是 spark 3.1.x 并没有 json_object 函数，不过还好...spark sql 有 to_json 函数例子： SELECT to_json(struct(bis_type,year,douban_rating)) from tv.test where date

1.9K1 0

Spark Hive SQL实例

Spark Hive SQL def initDimFrontCate(sqlContext: HiveContext): mutable.HashMap[String, String] = {...var dimValues = new mutable.HashMap[String, String] val sql = s"""select front_cate_id, page_level_id...dw.dim_front_cate | order by front_cate_id""".stripMargin val dimData = sqlContext.sql...(sql).persist(StorageLevel.MEMORY_AND_DISK) dimData.map(line => { val front_cate_id = line.getAs

9152 0

spark sql 生成 json

3040 0

点击加载更多

Spark SQL

Spark SQL

Spark系列 - (3) Spark SQL

spark学习笔记：spark sql

Flink SQL vs Spark SQL

Spark SQL JOIN

Spark学习之Spark SQL（8）

Spark Sql系统入门4：spark应用程序中使用spark sql

Spark1.0新特性-->Spark SQL

Spark笔记11-Spark-SQL基础

Spark SQL | Spark，从入门到精通

Spark编程实验三：Spark SQL编程

Spark SQL 快速入门系列(1) | Spark SQL 的简单介绍！

Spark2.x学习笔记：15、Spark SQL的SQL

Shark，Spark SQL，Spark上的Hive以及Apache Spark上的SQL的未来

Spark SQL访问Postgresql

Spark SQL 整体介绍

spark sql 生成 json

Spark Hive SQL实例

spark sql 生成 json

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐