腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6086)
视频
沙龙
1
回答
如
何在
pyspark
dataframe
读取
方法
中
包含
分区
列
、
、
、
我已经阅读了如下文件:
读取
数据 dfParquet = spark.read.format("parquet").option("mode", "FAILFAST") .load("/Users从特定
分区
读取
Avro
分区
数据 在另一个作业
中
,我需要从上述作业的输出
中
读取
数据,即从datasink/avro目录
中
读取
数据。我使用下面的代码
浏览 18
提问于2020-08-22
得票数 0
回答已采纳
1
回答
由多个
列
重新划分
Pyspark
数据
、
、
编辑:既然我再次阅读了这篇文章,那么在这个问题上添加更多的上下文:
dataframe
.repartition(200在
读取
目录时,我看到仓库
中
的目录是按我想要的方式
分区
的:/apps/hive/warehouse/db&
浏览 4
提问于2020-11-03
得票数 3
回答已采纳
3
回答
用自定义除法器划分电火花中的数据帧
、
、
寻找一些信息使用自定义
分区
在火花公子。我有一个数据存储不同国家的国家数据。因此,如果我对country
列
进行重新
分区
,它将将我的数据分发到n个
分区
中
,并将类似的国家数据保存到特定的
分区
中
。当我看到使用glom()
方法
时,这将创建一个倾斜的
分区
数据。 一些国家,
如
美国和中国,有大量的数据,特别是数据。我想重新划分我的数据,如果国家是美国和CHN,那么它将进一步分裂为大约10个
分区
,其他保持相同的其他国
浏览 3
提问于2018-10-13
得票数 6
回答已采纳
1
回答
如何除以星火
DataFrame
中
列
的和
、
、
如
何在
不立即触发计算的情况下,高效地将
列
除以其在星火
DataFrame
中
的自身和?[id: bigint]w = Window.rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)在本例
浏览 0
提问于2018-01-31
得票数 2
回答已采纳
1
回答
从多个S3存储桶导入
pyspark
dataframe
,其中有一
列
指示条目来自哪个存储桶
、
、
我有一个按日期
分区
的S3存储桶列表。第一个存储桶标题为2019-12-1,第二个存储桶标题为2019-12-2,依此类推。这些存储桶
中
的每一个都存储我正在
读取
到
pyspark
dataframe
中
的拼图文件。从每个存储桶生成的
pyspark
dataframe
具有完全相同的模式。我想要做的是迭代这些存储桶,并将所有这些拼图文件存储到一个单独的
pyspark
dataframe
中
,该数据框有一个dat
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
如何使用
pySpark
读取
分区
parquets的子示例?
、
、
、
假设为我提供了parquets数据的以下
分区
:└── data/ │ ├── <hash>_toto.parquet我可以
读取
整个
分区
数据,但我不知道如何排除其中的一些数据。我希望保留Spark实现的特性,在这里合并数据并创建
列
pr
浏览 8
提问于2022-01-20
得票数 1
回答已采纳
1
回答
使用
PySpark
但不使用色调
读取
数据时获取空值
、
、
我正在尝试使用
PySpark
读取
分区
数据,但不知何故,对于某些
分区
,它为所有
列
(
分区
列
除外)提供了空值。 当我检查HUE/Hive
中
的数据时,一切正常。我一直在谷歌上搜索这个问题,发现了这个: https://community.cloudera.com/t5/Support-Questions/
Pyspark
-Table-
Dataframe
-returni
浏览 20
提问于2021-10-29
得票数 1
回答已采纳
1
回答
根据特定
列
进行
PySpark
重新
分区
、
、
、
我正在研究如何对数据集进行重新
分区
(在
PySpark
中
),以便将指定
列
中
具有相同ID的所有行移动到相同的
分区
。实际上,我必须在每个
分区
中
运行一个程序,该程序为具有相同ID的所有行计算单个值。我有一个从HIVE QL查询构建的
dataframe
(df) (假设
包含
10000个不同的ID)。我试过了:默认情况下,我会获得2
浏览 4
提问于2018-05-22
得票数 0
1
回答
雪花不扣除拼花中的按
列
分区
、
但是,当对拼图文件进行
分区
并将其存储在S3
中
时,推断模式的功能与
pyspark
数据帧不同。在DataFrames
中
,
分区
文件夹名和值被
读取
为最后一
列
;在Snowflake推断模式
中
,有没有办法实现同样的结果? @GregPavlik -输入为结构化拼图格式。然而,如果拼图文件存储在
分区
中
-如上图所示。snowflake infer Schema仅提供三
列
;但是,
读取</em
浏览 0
提问于2021-10-21
得票数 5
1
回答
在集群上使用applyInPandas和
PySpark
、
、
、
、
applyInPandas
方法
可以用于并行地应用一个函数与一个GroupedData吡火花对象,如下所示。import pandas as pdfrom
pyspark
.sql import SparkSession def func(x): return x pdf = pd.
DataFrame
) dx = s
浏览 37
提问于2022-10-10
得票数 1
回答已采纳
3
回答
如
何在
Spark中分配和使用
列
标题?
、
、
、
、
我正在
读取
下面的数据集。我的文件
包含
50+字段,我希望为每个字段分配
列
标题,以便稍后在脚本
中
引用。我如
何在
PySpark
中
做到这一点?
DataFrame
是去这里的路吗? PS -菜鸟到火花。
浏览 2
提问于2016-04-14
得票数 7
1
回答
使用自定义模式创建一个拼花文件
、
、
我有这样的要求:我们有一个API,它将给我们
列
的模式。我们如
何在
使用
PySpark
的Databricks
中
做到这一点。
浏览 4
提问于2022-07-30
得票数 -1
回答已采纳
1
回答
如
何在
postgres驱动程序中使用nextval()?
、
、
、
、
在Postgres
中
,我有一个名为"mytable“的表,其中有两个
列
,id (bigint)和value (varchar(255))。
PySpark
应用程序接受一个
dataframe
并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“
中
。我使用以下
方法
创建id
列
: df.withColumn('id', lit("nextval('my_sequence
浏览 0
提问于2018-01-21
得票数 2
回答已采纳
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据帧合并到一个
PySpark
数据帧
中
。它们都来自相同的模式,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,模式通常
包含
200个具有已定义数据类型的
列
,其中
dataFrame
A有120
列
,
dataFrame
B有60
列
)。是否有可能在不写入和
读取
所有数据帧的情况下再次使用mergeSchema合并模式? 谢谢。
浏览 2
提问于2020-06-22
得票数 0
1
回答
Dataframes
Pyspark
中
时间戳
列
的
分区
、
、
、
、
我有一个PSspark格式的
DataFrame
,格式如下12/11/2013 1 sam 811/10/2013 3 Jack 8 103 Accounts我想做基于dno的
分区
df.write.saveAsTable( 'default.testing',
浏览 2
提问于2017-01-19
得票数 2
回答已采纳
3
回答
将行
中
的每一
列
传递给Spark
中
的哈希函数
、
、
、
我有一个带有N
列
的表,我想将它们连接到一个string
列
中
,然后在该列上执行一个散
列
。我想完全在Spark
中
完成这项工作,理想情况下,我已经尝试过HASH(*) as myhashcolumn,但是由于几个列有时为null,我无法像我所期望的那样使它工作。
浏览 1
提问于2018-11-26
得票数 1
回答已采纳
2
回答
如何随机调整火花放电
中
仅一
列
的值?
、
、
我想打破
列
和其他数据文件之间的关联。我想在维护上述
列
中
的值分布的同时做到这一点。 在熊猫
中
,我常常通过简单地调整列的值,然后将值分配给
列
来实现这一点。由于数据是
分区
的,所以在火花放电的情况下,这就不那么简单了。我认为在
pyspark
中
甚至没有一种
方法
可以在
dataframe
中
设置一个新
列
,并从另一个
dataframe
中
设置一个
列
浏览 5
提问于2022-02-03
得票数 1
1
回答
避免数据洗牌和合并-numPartitions不应用于单个
分区
,同时在spark
中
执行左反连接。
、
、
我有两个数据- target_df和reference_df.我需要删除target_df
中
的account_id,它存在于reference_df
中
。target_df是从hive表创建的,将有数百个
分区
。它是根据日期(20220101到20221101)进行
分区
的。 我是做左反连接和写入数据在hdfs的位置。df_purge.coalesce(numPartitions).write.partitionBy("date").mode("overwrite").parquet(&q
浏览 11
提问于2022-11-21
得票数 0
1
回答
当新的
分区
比旧的
分区
有更多的
列
时,如何从Avro
中
读取
所有
列
?
、
、
较新的
分区
可以
包含
比较旧
分区
更多的
列
。当我用Spark 2.4.3
读取
它时,我得到了第一个(最旧的)
分区
的模式的
DataFrame
,所有新添加的
列
都丢失了。我应该怎么做才能
读取
所有
列
?有什么变通
方法
吗? 谢谢。
浏览 13
提问于2019-11-18
得票数 0
1
回答
PySpark
DataFrame
:标记某些
列
值发生更改的行
、
、
、
我有一个
包含
'people‘和'timestamp’
列
的
PySpark
DataFrame
(加上其他与问题无关的
列
)。解释是用户在那个时候做了一些事情。你知道我如
何在
PySpark
中
实现这一点吗?最好是以
DataFrame
作为结果? 感谢你的想法!
浏览 35
提问于2018-08-30
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
遇见YI算法之初识Pyspark(二)
一文读懂PySpark数据框
一文读懂 PySpark 数据框
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券