腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3044)
视频
沙龙
1
回答
Pyspark
dataframe
拼接
vs.
增量
:
不同
的
行数
apache-spark
、
pyspark
、
parquet
、
delta-lake
据我所知,Delta正在以
拼接
的
形式存储数据,只是在它上面增加了一个具有高级功能
的
层。但是,当使用
Pyspark
读取数据时,如果使用spark.read.parquet()或spark.read.format('delta').load()读取
dataframe
,我会得到
不同
的
结果 df("my_data")> 184511389 df = spark.read.parquet("my_d
浏览 28
提问于2021-01-27
得票数 1
回答已采纳
1
回答
关于在
PySpark
中写入拼图
的
问题
csv
、
pyspark
、
parquet
在
PySpark
中将csv文件转换为parquet时遇到问题。当转换相同模式
的
多个文件时,它们不具有相同
的
模式,因为有时数字字符串将被读取为浮点型,其他字符串将被读取为整数,等等。列
的
顺序似乎也有问题。似乎当编写具有相同列
的
数据帧时,但是以
不同
的
顺序排列以
拼接
,那么这些
拼接
就不能被加载到相同
的
语句中。 如何将
dataframe
写入parquet,以使所有列都以字符串类型存储?如何处理列
的</
浏览 23
提问于2021-01-20
得票数 0
1
回答
在
Pyspark
中从
dataframe
插入或更新
增量
表
apache-spark
、
pyspark
、
delta-lake
我目前有一个
pyspark
dataframe
,我最初使用下面的代码创建了一个
增量
表-现在,由于上面的
dataframe
在我
的
需求中每天填充数据,因此为了将新记录添加到
增量
表中,我使用了以下语法- df.write.format("delta").mode("append").saveAsTable("e
浏览 1
提问于2021-02-24
得票数 4
1
回答
通过spark
dataframe
读取S3文件时,粘合书签不起作用
amazon-web-services
、
amazon-s3
、
pyspark
、
aws-glue
我有一个存储.gz文件(json格式)
的
S3存储桶。每小时将有更多
的
文件发送到此存储桶。我想使用Glue
增量
地(每天)从S3存储桶中读取数据,将.gz转换为
拼接
,然后写回另一个S3存储桶。我想我可以使用Glue书签来完成
增量
文件
的
读取/转换/写入。然而,我发现如果我读取spark
dataframe
中
的
.gz文件,书签就不起作用了。换句话说,我
的
下面的胶水作业不会以
增量
方式读取文件。根据我
浏览 24
提问于2020-12-30
得票数 1
1
回答
将
pyspark
写入一个雪花表,其中包含相同数量
的
列和一个额外
的
autoIncrement列
dataframe
、
pyspark
、
snowflake-cloud-data-platform
我有一个具有5列
的
pyspark
,我需要写到雪花表中有6列,5列与
dataframe
列相同,但是雪花表中有1条额外
的
自动
增量
列。当我试图将此数据写入雪花表时,它会给出一个错误;由于
dataframe
和雪花表中有
不同
的
列数而导致列不匹配。我已经试过了模式=‘追加’,但那不起作用。.option("dbtable", table_name) \我
浏览 5
提问于2019-10-10
得票数 1
2
回答
在数据库环境中尝试合并或连接两个
pyspark
.sql.
dataframe
.
DataFrame
python
、
python-3.x
、
dataframe
、
pyspark
两种类型都是:
pyspark
.sql.
dataframe
.
DataFrame
Error Message: TypeError: cannot concatenate object of type "<class '
pyspark
.sql.
dataframe
.
DataFrame
'&g
浏览 8
提问于2020-02-06
得票数 0
回答已采纳
1
回答
如何用Python在HDFS中打开拼图文件?
python
、
pyspark
、
parquet
我正在寻找读取存储在HDFS中
的
拼接
文件,我正在使用Python来完成此操作。我有下面的代码,但它不能在HDFS中打开文件。你能帮我修改代码吗?sc = spark.sparkContext sqlContext = SQLContext(sc) 此外,我还希望将
Dataframe
保存
浏览 9
提问于2018-02-02
得票数 2
回答已采纳
2
回答
将
PySpark
数据转换为Delta表
apache-spark
、
pyspark
、
aws-glue
、
delta-lake
我将Glue目录中
的
数据作为动态数据读取,并将其转换为
Pyspark
dataframe
以进行自定义转换。为了重新插入新
的
/更新
的
数据,我打算使用delta表。但我只找到从路径读取数据作为
增量
表
的
选项。为了执行合并操作,我需要将我
的
Pyspark
转换为Delta表。有办法这样做吗?
浏览 7
提问于2021-08-30
得票数 3
回答已采纳
1
回答
pyspark
.sql.functions -计数以考虑空值:
python
、
pyspark
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在计算列中
不同
元素
的
数量时考虑null值。让我给出以下可重复
的
示例,为此我需要创建一个数据集:df = spark.createDataFrame([(1,"arun","engineering",从我
的
研究来看,这似乎与count_d
浏览 12
提问于2022-06-07
得票数 0
6
回答
如何在
PySpark
中找到
DataFrame
的
大小或形状?
python
、
dataframe
、
pyspark
我正在尝试在
PySpark
中找出
DataFrame
的
大小/形状。我看不到有一个函数可以做到这一点。data.shape()row_number = data.count()列数
的
计算并不理想……
浏览 482
提问于2016-09-23
得票数 118
1
回答
PySpark
访问
DataFrame
列
的
foreachPartition()自定义函数
python
、
apache-spark
、
dataframe
、
iterator
、
pyspark
我有一个叫做“内部”
的
函数。我想要将这个函数应用到中。为此,我在我创建
的
dataframe
上调用"foreachPartition(inside)“方法。"inside“函数需要
dataframe
值。
dataframe
如下所示:
DataFrame
[lon: double, lat: double, t: bigint]def inside(iteratortest=small_df.foreachPart
浏览 1
提问于2018-05-22
得票数 0
回答已采纳
1
回答
Pyspark
:如何在
dataframe
列为NULL
的
两列上保留联接
dataframe
和
dataframe
pyspark
、
apache-spark-sql
我正在为每日
增量
加载过程编写一个脚本,使用
Pyspark
和一个Hive表,该表最初已经装载了数据。我一直试图通过左侧创建一个UC
dataframe
,将INC
dataframe
和BASE
dataframe
连接到两个PK列src_sys_id & acct_nbr上,其中INC
dataframe
fleet_acct_nbr"),"left_outer").filter(inc_df("*").isNull).show(fals
浏览 4
提问于2022-03-03
得票数 0
3
回答
向
PySpark
数据帧中添加组计数列
apache-spark
、
pyspark
、
dplyr
我来自R和到
PySpark
,因为它
的
出色
的
火花处理,我正在努力从一个上下文映射到另一个特定
的
概念。尤其是,假设我拥有如下数据集--+--a | 8b | 1x | y | na在
PySpark
中,我可以做一些几乎同样简单
的
事情,如果我要查看,根据
行数
概括: from
pyspark
.sql imp
浏览 0
提问于2018-02-14
得票数 37
回答已采纳
1
回答
跟踪序列化对象
的
增量
更改
r
、
serialization
这真的是出于纯粹
的
兴趣,我知道它甚至不是很有效。我不太熟悉原始向量,二进制格式等,但是备份软件,例如,不做这样
的
事情(
增量
备份)吗?这就是我走到现在
的
原因 x.
浏览 0
提问于2011-12-06
得票数 2
回答已采纳
3
回答
Pyspark
计数包括Nulls
pyspark
举一个简单
的
例子-deptColumns = ["dept_name|IT |40 |count: 4 我在databricks上运行,这是我
的
堆栈- Spark 3.0.1 scala 2.12,DBR 7.3
浏览 1
提问于2021-05-08
得票数 2
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
python
、
pandas
、
apache-spark
、
pyspark
我试图使用
pyspark
.pandas API在数据库上构造数据
的
共生矩阵。该代码在熊猫中运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用psdf.squeeze()将
datafram
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
组合匹配组
r
、
group-by
、
matching
、
fill
我
的
数据集
的
小代表:HOME.AWAY <", "
vs.
", "@", "@", "
v
浏览 3
提问于2016-02-08
得票数 0
回答已采纳
1
回答
Pyspark
:获取嵌套结构列
的
数据类型
json
、
dataframe
、
pyspark
、
nested
我目前正在处理一些相当复杂
的
json文件,我应该将它们转换并写入
增量
表。问题是,当涉及到列
的
数据类型时,每个文件都有细微
的
差异。有人能给我解释一下检索嵌套结构列
的
数据类型
的
一般方法吗?在互联网上,我只能找到如何对它们做选择:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/ 如果我有这样
的
格
浏览 42
提问于2021-10-22
得票数 0
1
回答
使用Blaze访问Spark时出错
python
、
python-3.x
、
apache-spark
、
blaze
尝试用Blaze和我本地
的
Spark实例做一些相当简单
的
事情。将带有blaze
的
csv文件加载到()中,然后通过()使用blaze
的
Spark 1.4.0csv (simple.csv)simple_csv = bz.Data("simple.csv") carsimple_csv.car.
浏览 3
提问于2015-06-18
得票数 0
1
回答
如何采样()
PySpark
DataFrame
的确切
行数
,而不是分数
apache-spark
、
pyspark
、
apache-spark-sql
我想从我
的
PySpark
DataFrame
中随机选择确切
的
行数
。我知道sample()函数。但是它不会让我输入我想要的确切
行数
。问题是,当我执行sampled_df = df.sample(0.2)时,如果我
的
df有1,000,000行,那么在sampled_df中不一定会有200,000行
浏览 55
提问于2021-08-12
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
大数据下Python的三款大数据分析工具
遇见YI算法之初识Pyspark(二)
余弦相似度算法进行客户流失分类预测
Dataiku DSS Code Recipe 介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券