腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Spark
在
两个
数据
帧
中
查找
相
似的
列
、
、
我有
两个
DataFrames,它们有这样的
数据
,|ADDRESS|CUSTOMER| CUSTOMERTIME3712.2672901111655| 0| 5|现在,我想要比较这
两个
数据
帧
,以找到下一步可以连接这些DataFrames的匹配
列
(
浏览 3
提问于2018-02-02
得票数 1
1
回答
如何根据
查找
数据
框创建
数据
框,并在动态
列
和特定
列
中
的映射值上创建多个
列
、
、
、
、
我有
两个
数据
帧
,一个是主
数据
帧
,另一个是
查找
数据
帧
。我需要在自定义表单中
使用
pyspark实现第三个。我需要检查
列
list_ids
中
的值,检查
查找
数据
帧
中
的匹配项,并在最终
数据
帧
中标记计数。我尝试过数组交集和数组
查找
,但它不起作用。主要
数据
帧</em
浏览 22
提问于2021-06-17
得票数 1
回答已采纳
1
回答
在
spark
/scala
中
的另一个
数据
框
中
查找
多个
列
值
、
、
、
我有
两个
数据
帧
A和B。A有30
列
- reason1,reason2.......reason30现在,我需要在B
中
查找
所有以reason*开头的
列
,并在
数据
帧
A的一
列
中
获取相应的值。因此,最终的
数据
帧
将具有reason1,reason2.......reason30, value 我试图将每一
列<
浏览 9
提问于2021-05-17
得票数 0
1
回答
如何合并或连接
spark
中
列
号不相等的
数据
帧
、
、
、
、
我正在做一个
使用
spark
的项目。
在
某些阶段,我需要在单个
数据
帧
中
合并或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我
使用
了联合函数,它已经合并了
两个
表
中
具有相同编号的
列
,但我也需要合并不相等的
列
值。我现在很困惑,有没有办法
在
pyspark
中
合并或连接不相等的基于<e
浏览 13
提问于2016-09-22
得票数 0
1
回答
为什么"groupBy agg count alias“不创建新
列
?
、
、
alias("count")) .limit(3)它在以下行失败:.orderBy(df("count").desc),说明没有这样的
列
count
浏览 2
提问于2018-11-08
得票数 0
2
回答
如何根据行值合并
两个
不同长度的pandas
数据
帧
、
、
我有以下
两个
熊猫
数据
帧
:
数据
帧
#1: user_id animals 1 1 'cat我希望
在
#1和#2的基础上创建一个新的
数据
帧
#3:
数据
帧
#3: user_id animals location 0 1 &
浏览 10
提问于2020-09-14
得票数 1
回答已采纳
1
回答
跨多
列
搜索子字符串
、
我正在尝试
使用
PySpark
在
spark
数据
帧
的所有
列
中
查找
一个子字符串。我目前知道如何
使用
filter通过一
列
搜索子字符串,并且包含: df.filter(df.col_name.contains('substring')) 如何扩展这条语句或利用另一条语句
在
多个
列
中
搜索子字符串匹配
浏览 21
提问于2019-10-17
得票数 0
回答已采纳
1
回答
统一
Spark
中
具有不同
列
数的
两个
表
、
如何联合包含不同
列
数的
两个
数据
帧
A和B,并为
数据
帧
A和B
中
不常见的
列
获取空值?我可以看到
spark
的unionAll不支持此操作,并抛出以下错误 org.apache.
spark
.sql.AnalysisException: Union can only be performedon tables with the same number of columns, but the left table has 11 c
浏览 0
提问于2016-08-04
得票数 0
1
回答
合并具有不同模式的
两个
地块文件
、
、
、
我有
两个
拼图文件,拼花A有137
列
,拼花B有110
列
。拼图文件包含表的整个历史记录。因此,拼图A拥有表的整个历史记录的所有字段。拼图B是我今天拉入的所有值,删除了17
列
。是否可以将缺少的
列
添加到拼接B并添加空值。那就加入工会吧?
浏览 19
提问于2018-09-06
得票数 0
3
回答
我可以将pandas
数据
帧
转换为
spark
rdd吗?
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要
使用
spark
将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
比较
两个
考拉
数据
帧
以进行测试
考拉也有类
似的
东西吗? 我正在编写一系列到考拉
数据
帧
的转换测试。首先,由于我的测试csv文件只有几行(<10行),我考虑只
使用
pandas。不幸的是,这些文件非常宽(接近200
列
),并且具有
在
spark
读取文件时指定的各种
数据
类型。由于熊猫的类型规范与考拉的类型规范非常不同,除了我们已经为
spark
编写的类型模式之外,我还必须编写大约200个完整的dtype列表。这就是为什么我们决定
使用
spark</e
浏览 27
提问于2020-12-12
得票数 0
回答已采纳
1
回答
使用
更改模式将
数据
插入到增量表
中
、
、
如何通过改变
数据
库
中
的模式将
数据
插入到增量表
中
。
在
Databricks Scala
中
,我分解了一个Map
列
并将其加载到增量表
中
。我有一个预定义的增量表模式。 假设模式有4
列
A、B、C、D。因此,有一天,我
使用
下面的代码将包含4
列
的
数据
帧
加载到增量表
中
。loadfinaldf.write.format("delta").opt
浏览 18
提问于2021-10-29
得票数 0
1
回答
如何截断
spark
dataframe
列
的值?
、
、
、
我想为
spark
数据
帧
的单个
列
中
的每个字符串删除字符串的最后
两个
值。我想在
spark
数据
帧
中
实现这一点,而不是将其移动到pandas,然后再移回来。下面是一个
数据
帧
示例,# | age| name|# | 350|Michael|# |123| Justin| # +--
浏览 1
提问于2019-06-04
得票数 1
1
回答
Apache
Spark
SQL -多阵列分解和1:1映射
我是Apache
Spark
SQL的新手,正在尝试实现以下目标。我有下面的DF文件,我想把它转换成一个中间DF文件,然后再转换成json文件。
浏览 0
提问于2018-04-13
得票数 0
1
回答
为什么
在
将Apache Arrow用于字符串类型时,pySpark会崩溃?
、
、
、
为了
在
大型
数据
集上获得一些离群点图,我需要将
spark
DataFrame转换为pandas。Turing to Apache Arrow
在
将x转换为字符串时,一次简单的运行会使我的pyspark控制台崩溃(它在没有转换的情况下工作得很好),为什么?()21/05/16 11:31:
浏览 20
提问于2021-05-16
得票数 1
回答已采纳
1
回答
连接具有不同行数和
列
数的
两个
数据
帧
、
、
我有
两个
数据
帧
:df2 shape = (97, 5818) df2的前4825个列名与df1
相
同,然后递增+1。但是,在这
两个
数据
帧
的末尾,都有一个名为Group_number的
列
。我希望连接
两个
数据
帧
,以便最终
数据
帧
的形状为(198,5818),即最终
数据
帧
包含df1部分的和
浏览 1
提问于2018-08-08
得票数 0
5
回答
如何在pyspark
中
获取dataframe
列
的名称?
、
在
熊猫
中
,这可以通过column.name来完成。>>>
spark
_df.columns此程序调用我的函数: my_func
浏览 1
提问于2016-09-28
得票数 55
1
回答
连接
两个
h2o
数据
帧
我有
两个
h2o
帧
,我想基于这
两个
列
中
存在的一个相同的
列
来连接它们,我
使用
Java API并从
spark
dataframes
中
获取h2o
帧
。h2oContext.asH2OFrame(train_validation);我可以
使用
spark</e
浏览 8
提问于2017-06-22
得票数 2
1
回答
在
pyspark
中
连接同名的Dataframe
、
、
、
、
我有
两个
数据
帧
,它们是从
两个
csv文件
中
读取的。pyspark代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')连接这
两个
使用
NUMBER coumn的
数据
,生成的新
数据
帧
如下。,因为连接后的
数据
帧
具有重复的
列
。)
在
加入
spark</e
浏览 1
提问于2018-10-03
得票数 1
3
回答
如何
使用
createDataFrame创建pyspark
数据
帧
?
我知道这可能是一个愚蠢的问题。我有以下代码:rows = [1,2,3]df.printSchema()但是我得到了一个错误:我不明白为什么会发生这种情况,因为我已经提供了'data',也就是变量row。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel如何查找一列数据是否在另一列数据中
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
VLOOKUP函数的使用方法
pandas系列学习(五):数据连接
自定义的近似匹配函数ZLOOKUP,让你的查找更智能,效率更高
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券