腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何检查来自不同
数据
帧
的
列
值?
、
、
、
我有
两个
pyspark
数据
帧
,我想检查
第一个
数据
帧
列
值是否存在于第二
列
dataframe.If
第一个
数据
帧
列
值不存在于
第二个
数据
帧
列
中
,我需要确定这些值并将其写入list.Is有没有更好
的
方法来使用
pyspark
感谢您
的
回
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
3
回答
对子字符串匹配(或包含)加入
PySpark
数据
帧
我想在
两个
数据
帧
之间执行左
连接
,但是
列
并不完全匹配。
第一个
数据
帧
中
的
联接
列
相对于
第二个
数据
帧
有一个额外
的
后缀。from
pyspark
import SparkContext df1
浏览 1
提问于2017-08-08
得票数 3
回答已采纳
1
回答
优化
两个
大型
pyspark
数据
帧
的
连接
、
、
、
我有
两个
包含GB级
数据
的
大型
pyspark
数据
帧
df1
和
df2。
第一个
数据
帧
中
的
列
是id1、col1。
第二个
数据
帧
中
的
列
是id2、col2。
数据
帧
具有相等
的
行数。此外,id1
和
id2<e
浏览 9
提问于2020-06-10
得票数 2
回答已采纳
2
回答
PySpark
列
向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r
中
那样绑定
两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和
作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null值
的
列
。如果
列
存在,则不执行任何操作,
并
返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
Pyspark
:通过ID
和
最近日期向后加入2个
数据
帧
、
、
、
在
pyspark
(
和
一般
的
python )
中
执行
两个
数据
帧
的
滚动
连接
时,我遇到了很多问题。我希望将
两个
pyspark
数据
帧
通过它们
的
ID
和
最近日期反向
连接
在一起(这意味着
第二个
数据
帧
中
的
日期不能晚于
第一个</em
浏览 1
提问于2020-08-08
得票数 2
3
回答
我可以将pandas
数据
帧
转换为spark rdd吗?
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF
并
添加列到dataframe
中
。c)需要使用spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
如何使用
Pyspark
从xml文件创建子
数据
帧
?
我在
pyspark
中有
所有
这些支持库,并且我能够为parent创建
数据
帧
- def xmlReader(root, row, filename): return xref df1.head()
浏览 11
提问于2019-03-15
得票数 0
1
回答
从
PySpark
运行大量配置单元查询
、
、
、
我想要执行大量
的
配置单元查询,并将结果存储在
数据
帧
中
。我有一个非常大
的
数据
集,结构如下:| visid_high,它使用每一行作为二级查询
的
输入:for session in sessions.collect()[:100]: query = "SELECT pr
浏览 5
提问于2018-07-23
得票数 0
1
回答
如何合并或
连接
spark
中
列
号不相等
的
数据
帧
、
、
、
、
我正在做一个使用spark
的
项目。在某些阶段,我需要在单个
数据
帧
中
合并或
连接
3个
数据
帧
。这些
数据
帧
来自spark sql表,我使用了联合函数,它已经合并了
两个
表
中
具有相同编号
的
列
,但我也需要合并不相等
的
列
值。我现在很困惑,有没有办法在
pyspark
中
合并或
连接
不相等
的
浏览 13
提问于2016-09-22
得票数 0
1
回答
Pyspark
:
内部
连接
两个
pyspark
数据
帧
,
并
选择
第一个
数据
帧
中
的
所有
列
和
第二个
数据
帧
中
的
几个
列
我有
两个
pyspark
数据
帧
A
和
B。我想
内部
连接
两个
pyspark
数据
帧
,
并
选择
第一个
数据
帧
中
的
所有
列
和
第二个
数据
帧
中
的
一些
浏览 11
提问于2020-08-23
得票数 0
回答已采纳
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入
和
读取
所有
数据
浏览 2
提问于2020-06-22
得票数 0
3
回答
取消持久化(py)spark
中
的
所有
数据
帧
、
、
、
、
我是一个spark应用程序,有
几个
点我想要持久化当前状态。这通常是在一个大
的
步骤之后,或者缓存一个我想要多次使用
的
状态之后。似乎当我第二次对我
的
数据
帧
调用cache时,一个新
的
副本被缓存到内存
中
。在我
的
应用程序
中
,这会导致在扩展时出现内存问题。尽管在我当前
的
测试
中
,给定
的
数据
帧
最大大约为100MB,但中间结果
的
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
通过
连接
比较
两个
pyspark
数据
帧
、
、
、
我有
两个
pyspark
数据
帧
,它们
的
行数不同。我试图通过在多个键上
连接
这
两个
数据
帧
来比较
所有
列
中
的
值,这样我就可以找到这些
列
中
具有不同值
的
记录
和
具有相同值
的
记录。df1 and df2 on multiple keys same=df1.join(df2, on=[
浏览 14
提问于2021-02-13
得票数 0
4
回答
Pyspark
:有没有等同于pandas info()
的
方法?
、
、
、
在
PySpark
中
是否有与pandas info()方法等效
的
方法?我正在尝试获取有关
PySpark
中
数据
帧
的
基本统计信息,例如:
列
数
和
行数、空值数、
数据
帧
大小 pandas
中
的
Info()方法提供了
所有
这些统计信息。
浏览 4
提问于2017-06-08
得票数 6
2
回答
两个
数据
帧
的
Pyspark
连接
导致重复值错误
、
在
连接
两个
数据
帧
时,我在
pyspark
中
遇到了问题。
第一个
dataframe是一个单列
的
dataframe "zipcd",
第二个
是四个
列
的
dataframe。每当我试图
连接
两个
dataframe时,问题就会出现,因为
Pyspark
在我
的
新dataframe
中
返回我,关于zipcd
的
浏览 30
提问于2021-07-01
得票数 1
2
回答
迭代
和
计算
列
的
更有效
的
方法
、
我有一个非常宽
的
数据
帧
> 10,000
列
,我需要计算每个
列
中空值
的
百分比。现在我正在做
的
是:for c in df_a.columns[:]: # print(c)当然,这是一个缓慢
的
过程,有时会崩溃。有没有我
浏览 0
提问于2017-09-24
得票数 1
1
回答
正在将
pyspark
数据
帧
写入文本文件
、
我有一个从sql server
中
的
一个表创建
的
pyspark
数据
框架,我对它做了一些转换,现在我要将它转换为动态
数据
框架,以便能够将其保存为s3存储桶
中
的
文本文件。当我将
数据
帧
写入文本文件时,我将向该文件添加另一个头文件。这是我
的
动态
数据
框,将保存为文件: 2021-03-21 | MT.0000| 234.543
浏览 0
提问于2021-04-23
得票数 0
1
回答
windowPartitionBy
和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
Pyspark
: PicklingError:无法序列化对象:
、
、
我有以下
两个
数据
帧
: df_whitelist
和
df_text|keyword| whitelist_terms | +------,例如关键字LA对应于“LA city”
和
“US LA In da”。在df_text
中
,我有文本和在这个文本中找到
的
一些关键字。我想要做
的
是,对于每一段文本,例如“客户端有ad..”,对于它
的
每个关键字“client”
和</e
浏览 4
提问于2017-11-12
得票数 9
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
这8个问答解决你所有疑问
pandas系列学习(五):数据连接
一个Python大数据处理利器:PySpark入门指南
Python开源数据分析工具TOP 3!
如何只用一行代码让 Pandas 加速四倍?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券