Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >pyspark记录

pyspark记录

作者头像
DuncanZhou
发布于 2020-01-21 02:57:15
发布于 2020-01-21 02:57:15
1K0
举报
文章被收录于专栏:Duncan's BlogDuncan's Blog

Spark DataFrame学习

1. 文件的读取

1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”parquet/json”)

1.2 和数据库的交互 spark.sql(“”)

2.函数使用

  • 2.1 printSchema() - 显示表结构
  • 2.2 df.select(col) - 查找某一列的值
  • 2.3 df.show([int n]) - 显示[某几行的]的值
  • 2.4 df.filter(condition) - 过滤出符合条件的行
  • 2.5 df.groupby(col).count() df.groupby(col).agg(col,func.min(),func.max(),func.sum()) - 聚合函数
  • 2.6 spark.createDataFrame([(),(),(),()…,()],(col1,col2,col3,…,coln))
  • 2.7 自定义udf函数

123

@pandas_udf("col1 type,col2 type,...,coln type",PandasUDFType.GROUPD_MAP)def f(pdf): pass

df.groupby(col).apply(f).show()

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
PySpark入门级学习教程,框架思维(中)
在讲Spark SQL前,先解释下这个模块。这个模块是Spark中用来处理结构化数据的,提供一个叫SparkDataFrame的东西并且自动解析为分布式SQL查询数据。我们之前用过Python的Pandas库,也大致了解了DataFrame,这个其实和它没有太大的区别,只是调用的API可能有些不同罢了。
Sam Gor
2021/04/26
4.5K0
Spark笔记12-DataFrame创建、保存
DataFrame可以翻译成数据框,让Spark具备了处理大规模结构化数据的能力。
皮大大
2021/03/02
1.1K0
[1017]pyspark之dataframe操作
在join操作中,我们得到一个有缺失值的dataframe,接下来将对这个带有缺失值的dataframe进行操作
周小董
2021/07/14
10.7K0
Spark SQL从入门到精通
熟悉spark sql的都知道,spark sql是从shark发展而来。Shark为了实现Hive兼容,在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业(辅以内存列式存储等各种和Hive关系不大的优化);
Spark学习技巧
2019/05/09
1.2K0
Spark SQL从入门到精通
Spark之【SparkSQL编程】系列(No1)——《SparkSession与DataFrame》
上一篇博客已经为大家介绍完了SparkSQL的基本概念以及其提供的两个编程抽象:DataFrame和DataSet,本篇博客,博主要为大家介绍的是关于SparkSQL编程的内容。考虑到内容比较繁琐,故分成了一个系列博客。本篇作为该系列的第一篇博客,为大家介绍的是SparkSession与DataFrame。
大数据梦想家
2021/01/27
1.7K0
Spark之【SparkSQL编程】系列(No1)——《SparkSession与DataFrame》
PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理
笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。
悟乙己
2019/05/26
31K0
3万字长文,PySpark入门级学习教程,框架思维
关于PySpark,我们知道它是Python调用Spark的接口,我们可以通过调用Python API的方式来编写Spark程序,它支持了大多数的Spark功能,比如SparkDataFrame、Spark SQL、Streaming、MLlib等等。只要我们了解Python的基本语法,那么在Python里调用Spark的力量就显得十分easy了。下面我将会从相对宏观的层面介绍一下PySpark,让我们对于这个神器有一个框架性的认识,知道它能干什么,知道去哪里寻找问题解答,争取看完这篇文章可以让我们更加丝滑地入门PySpark。话不多说,马上开始!
Sam Gor
2021/08/13
10.2K0
第三天:SparkSQL
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!
sowhat1412
2020/11/05
13.4K0
第三天:SparkSQL
Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍
  在老的版本中,SparkSQL 提供两种 SQL 查询起始点:一个叫SQLContext,用于Spark 自己提供的 SQL 查询;一个叫 HiveContext,用于连接 Hive 的查询。
不温卜火
2020/10/28
2.3K0
Spark SQL 快速入门系列(2) | SparkSession与DataFrame的简单介绍
大数据技术Spark学习
Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了一个编程抽象叫做 DataFrame,并且作为分布式 SQL 查询引擎的作用。 我们已经学习了 Hive,它是将 Hive SQL 转换成 MapReduce 然后提交到集群上执行,大大简化了编写 MapReduce 的程序的复杂性,由于 MapReduce 这种计算模型执行效率比较慢。所以 Spark SQL 的应运而生,它是将 Spark SQL 转换成 RDD,然后提交到集群执行,执行效率非常快!
黑泽君
2019/05/10
5.4K0
大数据技术Spark学习
[1014]PySpark使用笔记
PySpark 通过 RPC server 来和底层的 Spark 做交互,通过 Py4j 来实现利用 API 调用 Spark 核心。 Spark (written in Scala) 速度比 Hadoop 快很多。Spark 配置可以各种参数,包括并行数目、资源占用以及数据存储的方式等等 Resilient Distributed Dataset (RDD) 可以被并行运算的 Spark 单元。它是 immutable, partitioned collection of elements
周小董
2021/07/14
1.4K0
Spark SQL | Spark,从入门到精通
欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你。
美图数据技术团队
2019/04/19
2.1K0
Spark SQL | Spark,从入门到精通
spark2 sql编程样例:sql操作
问题导读 1.DataFrame中本文使用了row哪些方法? 2.操作DataFrame row需要导入什么包? 3.teenagersDF.map(teenager => "Name: " + te
用户1410343
2018/03/26
3.4K0
spark2 sql编程样例:sql操作
大数据开发!Pandas转spark无痛指南!⛵
Pandas 是每位数据科学家和 Python 数据分析师都熟悉的工具库,它灵活且强大具备丰富的功能,但在处理大型数据集时,它是非常受限的。
ShowMeAI
2022/11/24
8.6K0
大数据开发!Pandas转spark无痛指南!⛵
Spark SQL
Hive是一个基于Hadoop 的数据仓库工具,提供了类似于关系数据库SQL的查询语言HiveQL,用户可以通过HiveQL语句快速实现简单的MapReduce统计,Hive 自身可以自动将HiveQL语句快速转换成MapReduce 任务进行运行。当用户向Hive输入一段命令或查询(即HiveQL 语句)时, Hive需要与Hadoop交互来完成该操作。该命令或查询首先进入到驱动模块,由驱动模块中的编译器进行解析编译,并由优化器对该操作进行优化计算,然后交给执行器去执行,执行器通常的任务是启动一个或多个MapReduce任务。如图所示描述了用户提交一段SQL查询后,Hive把sQL 语句转化成MapReduce任务进行执行的详细过程。
Francek Chen
2025/01/22
2600
Spark SQL
SparkSQL
Hive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。
ha_lydms
2023/11/04
5030
SparkSQL
PySpark UD(A)F 的高效使用
Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的,并在Java虚拟机(JVM)中运行,但它附带了Python绑定,也称为PySpark,其API深受panda的影响。在功能方面,现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能,例如groupby、聚合等等。
flavorfan
2021/09/10
20.7K0
PySpark UD(A)F 的高效使用
Structured API基本使用
Spark 中所有功能的入口点是 SparkSession,可以使用 SparkSession.builder() 创建。创建后应用程序就可以从现有 RDD,Hive 表或 Spark 数据源创建 DataFrame。示例如下:
每天进步一点点
2022/07/27
2.8K0
Structured API基本使用
Spark 与 DataFrame
在 Spark 中,除了 RDD 这种数据容器外,还有一种更容易操作的一个分布式数据容器 DateFrame,它更像传统关系型数据库的二维表,除了包括数据自身以外还包括数据的结构信息(Schema),这就可以利用类似 SQL 的语言来进行数据访问。
EmoryHuang
2022/10/31
1.9K0
使用pyspark实现RFM模型及应用(超详细)
本文主要介绍了RFM模型,以及使用pyspark实现利用RFM模型对用户分层的简单应用~让大家对RFM有一个更深刻的认识
languageX
2023/07/03
8670
相关推荐
PySpark入门级学习教程,框架思维(中)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档