腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
row_number
添加到
数据
帧
pyspark
的
连接
列
中
、
、
我有一个如下所示
的
数据
框架 df = sqlContext.createDataFrame((2,'N','Y',2,1,2,3在
数据
帧
中
连接
一些字符串。+ batch_id + time_now + '000000000000000'
浏览 70
提问于2021-03-02
得票数 1
回答已采纳
2
回答
df2 :合并两个
数据
帧
,如果两个
数据
帧
中
的
ID重复,则spark
中
的
行将覆盖spark
中
的
行
、
、
、
有两个
数据
帧
: df1和具有相同模式
的
df2。ID是主键。 我需要合并两个df1和df2。这可以由union完成,但有一个特殊要求除外:如果在df1和df2
中
存在具有相同ID
的
重复行。我认为可以注册两个临时表,进行完全
连接
并使用coalesce。但我不喜欢这种方式,因为实际上大约有40
列
,而不是上面示例
中
的
3
列
。
浏览 13
提问于2019-09-08
得票数 2
0
回答
行号
的
配置单元查询
、
、
、
我在
pyspark
上工作,需要编写一个从hive表
中
读取
数据
并返回包含所有
列
和行号
的
pyspark
数据
帧
的
查询。这是我尝试过
的
:这个查询在hive
中
运行得很好,但是当我从
pyspark
脚本运行它时,它抛出了以下错误: Win
浏览 2
提问于2017-12-06
得票数 0
1
回答
如何对
PySpark
DataFrame
的
每一
列
中
的
数据
进行混洗?
、
、
、
、
我是一个用
PySpark
编程
的
初学者。我在CSV文件中有以下
数据
,该文件正在被读取到Spark Dataframe
中
,并且我想从一个小
数据
集开始生成一个大型
数据
集。 .option("header", "true")我想对每一
列
中
的<
浏览 16
提问于2020-05-11
得票数 0
1
回答
将
numpy
中
的
不同数组
添加到
数据
帧
的
每一行
、
、
、
我有一个SparkSQL
数据
帧
和2Dnumpy矩阵。它们具有相同
的
行数。我打算
将
numpy矩阵
中
的
每个不同数组作为新
列
添加到
现有的
PySpark
数据
帧
中
。这样,
添加到
每一行
的
列表是不同
的
。例如,
PySpark
数据
帧
如下所示 | Id | Name | | ----
浏览 16
提问于2019-10-05
得票数 0
2
回答
如何使用monotonically_increasing_id
连接
两个没有公共
列
的
pyspark
数据
帧
?
、
、
、
我有两个相同行数
的
pyspark
dataframe,但它们没有任何公共
列
。因此,我使用monotonically_increasing_id()
将
新
列
添加到
这两个
列
中
cont_data = cont_data.join(df1,df1.match_id==cont_data.match_id,
浏览 2
提问于2017-06-03
得票数 1
1
回答
PySpark
中
的
群累积计数
、
我有如下
数据
:id | name | 1 | joe | 2 | jane|--------------- 目标是,如果'id‘
列
是重复
的
,则从1开始向其添加升序号。中使用相同
的
逻辑,但没有成功。
中
实现相同
的
功能?任何帮助都是非常感谢
的
。
浏览 0
提问于2019-04-10
得票数 0
回答已采纳
1
回答
PySpark
从每个组中选择顶N行
、
、
我希望为
数据
帧
中
列
的
每个类别随机选择N行。假设
列
是'color‘,N是5,那么我想为每种颜色选择5项。通常
的
做法是这样
的
from
pyspark
.sql.functions import col,
row_number
.where(f"{num}
浏览 1
提问于2022-05-26
得票数 1
1
回答
计算databricks中线串(geo)
的
长度
、
、
、
我们导入一个具有地理
列
的
数据
集。这个geo-column表示一条线。当我
将
数据
导入到
数据
帧
中
时,geo-column
中
的
数据
如下所示: LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128368596.075214043,155466.47560628
浏览 44
提问于2021-08-09
得票数 0
回答已采纳
1
回答
如何添加带有行号
的
列
?
、
、
我有一个
pyspark
数据
格式。我想添加一个包含行号
的
列
。这就是我要做
的
如果我检查stop_id
的
最大值,我就会得到
浏览 1
提问于2020-05-17
得票数 0
回答已采纳
1
回答
如何在星火
数据
中
添加具有序列值
的
列
?
、
、
、
、
如何从
PySpark
数据
帧
中
的
特定数字
中
添加具有序列值
的
列
?当前
数据
集:Val1 Val2 F但我希望
数据
集是这样
的
:Val1 Val2 F 11F我正在使用下面的代码
浏览 0
提问于2018-08-15
得票数 3
回答已采纳
1
回答
如何遍历
PySpark
数据
帧
并打印前5次迭代?
、
、
、
我有一个由一
列
和十行组成
的
pyspark
数据
帧
。我在上面的代码
中
删除了其他
列
。它看起来是这样
的
: +--------------------++--------------------+|Shattered Image (...|+-------------------
浏览 17
提问于2020-11-08
得票数 1
回答已采纳
1
回答
从
PySpark
运行大量配置单元查询
、
、
、
我想要执行大量
的
配置单元查询,并将结果存储在
数据
帧
中
。我有一个非常大
的
数据
集,结构如下:| visid_high,它使用每一行作为二级查询
的
输入:for session in sessions.collect()[:100]: query = "SELECT pr
浏览 5
提问于2018-07-23
得票数 0
1
回答
组内火花拼花分配指数
、
、
、
我想知道生成
列
index以唯一标识每组标签
中
的
记录
的
最有效方法:| label | value | index |+-------+-------+-------++-------+-------+-------+ 我
的
实际
数据
非常大,每组标签都有相同数量
的
记录。
列
索引将用于<
浏览 1
提问于2018-05-28
得票数 0
回答已采纳
1
回答
如何合并或
连接
spark
中
列
号不相等
的
数据
帧
、
、
、
、
我正在做一个使用spark
的
项目。在某些阶段,我需要在单个
数据
帧
中
合并或
连接
3个
数据
帧
。这些
数据
帧
来自spark sql表,我使用了联合函数,它已经合并了两个表
中
具有相同编号
的
列
,但我也需要合并不相等
的
列
值。我现在很困惑,有没有办法在
pyspark
中
合并或
连接
不相等
的
基于<e
浏览 13
提问于2016-09-22
得票数 0
1
回答
包含字符串值
的
Pyspark
Cumcount
、
我
的
输入
数据
帧
是; ID Amount result46 2 default48对于python,我可以用下面的代码做到这一点; df['result'] += df.groupby('ID').cumcount().add(1).astype(str) 你能帮我介绍一下
pyspark
浏览 12
提问于2020-10-31
得票数 1
回答已采纳
1
回答
如何
将
Sklearn SVM实现应用于使用SPARK ML计算
的
特征( Spark ML
中
缺少多类SVM )
、
、
、
、
我有220 GB
的
数据
。我已经将其作为两
列
读取到spark dataframe
中
: JournalID和Text。现在,我
的
数据
帧
中
缺少27行。使用NGram类,我在dataframe
中
添加了另外两个
列
Unigram和Bigram,其中包含文本
列
中
的
单字和双字。然后,我使用一元和二元语法列上
的
pyspark
的
T
浏览 1
提问于2018-12-17
得票数 0
1
回答
将
另一个df
中
的
列作为
列
插入到另一个df
中
。塞了好几个小时!与不同
列
合并(联接)
、
、
这两个df我尝试了不同
的
代码,从join (它需要一个公共
列
),到联合和一些其他代码来合并,尽管我不能得到我想要
的
结果,我也直接尝试了data.join(tdf, how='outer').select('*')如何
将
年龄
列
添加为上
浏览 19
提问于2020-05-07
得票数 0
1
回答
根据来自其他
列
的
值
将
小时数
添加到
数据
帧
中
的
时间戳
列
、
、
、
如何用
pyspark
编写以下sql select FORMAT(DATEADD(HOUR, addHours, Coltimestamp), 'yyyy-MM-dd HH:mm') AS TransDate; 我有这两个专栏 from
pyspark
.sql.types import StringType [ ("2020-06-17T15:04:34"
浏览 7
提问于2020-09-08
得票数 0
1
回答
如何获取
row_number
is
pyspark
数据
帧
、
、
、
为了排名,我需要让
row_number
是一个
pyspark
数据
帧
。我看到在
pyspark
的
窗口函数中有
row_number
函数,但这是使用HiveContext所必需
的
。我尝试用HiveContext替换sqlContext self.sc =
pyspark
.SparkContext() #self.sqlContext =
py
浏览 0
提问于2016-10-30
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将excel表格中同列的重复数据筛选并提取出来?
MySQL 8与MariaDB:两者窗口函数和CTE的比较
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券