腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
发现
不同
模式
的
两个
数据
帧
之间
的
差异
、
、
我有
两个
数据
帧
。%1有超过20列,其他只有id列。我知道,如果
数据
帧
模式
完全相同,那么我们可以使用df1.subtract(df2)。 我需要存在于df1中但不存在于df2中
的
数据
。
两个
帧
都具有共同
的
id字段。我尝试了df1.select('id').subtract(df2.select('id')).collect(),但它只返回id列作为输出。我想要df
浏览 16
提问于2020-07-02
得票数 1
回答已采纳
1
回答
使用
pyspark
比较
两个
大型
数据
帧
、
、
、
、
我目前正在做一项
数据
迁移任务,试图使用
pyspark
比较来自
两个
不同
数据
库
的
两个
数据
帧
,找出
两个
数据
帧
之间
的
差异
,并将结果记录在csv文件中,作为
数据
验证
的
一部分。我正在尝试一个性能高效
的
解决方案,因为有
两个
原因。大型
数据
帧</em
浏览 11
提问于2018-01-31
得票数 1
回答已采纳
2
回答
如何计算列名
模式
相似的
不同
数据
框中
的
列
之间
的
差异
?
、
我想计算
两个
数据
帧
中
的
列
之间
的
差异
。
数据
帧
具有
不同
的
总列数,并且
数据
帧
之间
的
列名具有相似的
模式
。我想计算命名相似的列
之间
的
差异
。w_H_11_BA w_H_16_BA w_13_12_BA 8 1 1
浏览 12
提问于2019-08-21
得票数 0
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames
之间
的
转换
、
、
、
、
我有一个13M行
的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将根据其他参数以
不同
的
频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]中,我
发现
使用以下任何一行都可以加快
pyspark
到pandas
数据
帧
之间
的
转换: spark.conf.set("
浏览 11
提问于2021-11-19
得票数 0
3
回答
如何将整个
pyspark
数据
帧
的
大小写更改为下或上
、
、
、
、
我正在尝试对
两个
数据
帧
中
的
每一行应用
pyspark
sql函数散列算法,以确定
差异
。哈希算法是区分大小写
的
.i.e。如果列包含'APPLE‘和'Apple’被认为是
两个
不同
的
值,所以我想将
两个
数据
帧
的
大小写都改为上或下。
浏览 41
提问于2018-02-01
得票数 6
回答已采纳
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中。它们都来自相同
的
模式
,但是它们可能会有所
不同
,因为有时会缺少一些列(例如,
模式
通常包含200个具有已定义
数据
类型
的
列,其中dataFrame A有120列,dataFrame B有60列)。是否有可能在不写入和读取所有
数据
帧
的
情况下再次使用mergeSchema合并
浏览 2
提问于2020-06-22
得票数 0
1
回答
pyspark
.sql.utils.IllegalArgumentException:‘字段’features‘不存在
、
、
我正在尝试通过SparkNLP对文本
数据
进行主题建模和情感分析。我已经对
数据
集执行了所有预处理步骤,但在LDA中遇到错误。Error 程序是: from
pyspark
.ml import Pipelinefrom
pyspark
.sql.types import Integ
浏览 187
提问于2021-04-22
得票数 1
回答已采纳
1
回答
合并
pyspark
dataframe中
的
重复记录
、
、
、
、
我有一个有重复ids
的
pyspark
数据
帧
。某些记录中存在缺失值,重复ids
之间
的
"Time“字段存在
差异
。如果有
不同
的
“时间”值,我怎么才能选择最近
的
一个呢?理想
的
数据
帧
如下所示: +-------------+------------------------+-------------------------+--------------------
浏览 1
提问于2020-08-10
得票数 0
1
回答
处理依赖型
PySpark
DataFrames
、
、
、
假设我们有一个嵌套
的
PySpark
dataframe df,其
模式
如下: |-- a1: string (nullable = true) | | |-- dt_indicator: boolean (nullable = true) 假设我们有一个过程,在
两个
扁平
的
数据
帧
df1和df2中用以下
模式
将嵌套
浏览 4
提问于2021-12-12
得票数 0
回答已采纳
1
回答
Apache Metamodel vs Apache Drill
、
Apache是一个
数据
访问框架,它为
发现
、探索和查询
不同
类型
的
数据
源提供了一个公共接口。Apache Drill是一个无
模式
的
SQL查询引擎,它通过消除在分析
数据
之前构建和维护
模式
的
限制来提供实时洞察。任何了解这
两个
项目
之间
关键
差异
的人都会感到困惑,因为这
两个
项目都提供类似SQL
的
接口来查询
数据
存储 请想一想。
浏览 21
提问于2017-02-12
得票数 3
1
回答
我们是否必须显式地使用RDDs和诸如foreach、parallelize之类
的
操作来在
pyspark
中执行并行处理?
、
、
如果我们对group by,merge,for
两个
数据
帧
使用普通
的
python操作,而不是显式地使用map,reducebykey,groupbykey等,是否存在性能
差异
?前者(正常操作)是简单
的
顺序处理,而后者是并行处理吗? 这是否意味着要激活并行处理,我们必须显式使用RDDs?正常
的
数据
帧
使用不是并行处理(尽管是在
pyspark
中完成
的
)?
浏览 1
提问于2021-10-26
得票数 0
3
回答
如何解决"SparkException:在Future.get中抛出异常“问题?
、
、
、
我正在处理
两个
pyspark
数据
帧
,并对它们进行左反联接,以跟踪日常更改,然后发送电子邮件。Table_b, how='left_anti'预期输出是包含一些
数据
或不包含任何
数据
的
pyspark
数据
帧
。这个比较
数据
帧
从
浏览 0
提问于2019-06-22
得票数 3
1
回答
从列中
的
另一个
数据
框返回具有
不同
值
的
行
、
我试图返回
两个
数据
帧
之间
的
差异
,但仅在某些列中。df1:df2:我写了下面的内容来过滤
差异
然后它又回来了但是我想返回仅在colA和colB上
不同
的
行,而不是只过滤完全相同
的
行,这样
浏览 8
提问于2020-02-26
得票数 1
回答已采纳
1
回答
如何使用R计算同一
数据
帧
中具有相同列名
的
列
之间
的
差异
首先,我有
两个
数据
帧
,我使用公共列删除列
的
后缀来组合具有相同列但
不同
后缀
的
数据
帧
。现在,我必须计算R中
数据
帧
中具有相同列名
的
每两列
之间
的
差异
function(y) if ( all(is.na(y
浏览 2
提问于2019-05-02
得票数 0
1
回答
从
两个
值
不同
的
数据
帧
中获取列
、
、
、
我有
两个
几乎相同
的
Pyspark
数据
帧
:相同
的
行数和row_id,相同
的
模式
,但每行
的
某些列上
的
值
不同
。 我想确定每一行
的
列是什么。示例:
数据
帧
A id fname lname email2 Roger Moore rm@rocketmail.com3
浏览 22
提问于2020-03-23
得票数 1
回答已采纳
1
回答
如何在AWS胶水作业中将多个源映射到单个目标
、
、
我有一个MySQL
数据
库和一个包含200个表
的
Mongo
数据
库,我正在尝试将它连接到Glue并合并一些表,最终得到合并
数据
的
20个表,以及一些过滤器和脚本,在
数据
到达需要
的
地方之前过滤掉其中
的
一些
数据
。我应该使用
不同
的
工具,还是应该在其他地方执行该步骤(例如,使用DMS并为爬虫生成另一个目的地?)
浏览 6
提问于2018-08-17
得票数 1
回答已采纳
2
回答
从json
模式
表示创建spark
数据
帧
模式
、
有没有办法将
数据
帧
模式
序列化为json,并在以后反序列化它? 用例很简单:我有一个json配置文件,其中包含我需要读取
的
数据
帧
的
模式
。我希望能够从现有
模式
(在dataframe中)创建默认配置,并且能够通过从json字符串中读取相关
模式
来生成稍后使用
的
相关
模式
。
浏览 1
提问于2016-12-04
得票数 30
回答已采纳
1
回答
如何在
不同
模式
中连接同名表
、
我需要检查名称相同但
模式
不同
的
两个
表中
的
数据
之间
的
差异
。我有
两个
模式
: Database1和Database2,在第一个
模式
中有TABLE_TEST和in,还有第二个
模式
TABLE_TEST。表中
的
数据
在彼此
之间
有一些
不同
。我要找出那些
不同
之处。我尝试
的
是上
浏览 1
提问于2019-07-10
得票数 0
1
回答
spark是否异步写入
数据
帧
、
我有
两个
spark
数据
帧
df1和df2。我尝试将它们写到
两个
不同
的
文件路径。有人能告诉我,写操作是同步进行还是异步进行?这是因为它们是
两个
不同
的
数据
帧
写入
两个
不同
的
路径,写入是同时发生,还是必须等到它完成df1写出后才开始写df2?示例代码:import sys from awsglue.transform
浏览 15
提问于2020-02-17
得票数 0
1
回答
用python、pandas实现股票
数据
的
存储和计算
、
我正在处理每天使用文件下载
的
股票
数据
。该文件每天包含相同数量
的
列,但行数每天都会发生变化,这取决于进出列表
的
股票。我希望比较
两个
日期
的
文件,并找到
之间
的
总数量列
的
差异
。我想看看这
两个
文件
之间
的
区别,哪些股票进入了列表,哪些股票退出了列表。 我尝试使用pandas
数据
帧
并将其存储在hd5文件中。然后尝试
数据
<em
浏览 3
提问于2019-04-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
掌握Python技巧:如何比较两个Excel表格并发现隐藏的差异
实体和网商之间的对抗,不同文化背景下的商业模式
大家都知道不同平台之间的数据库是分开的
Excel如何快速比较两个工作表的数据差异?
核对两个Word文档之间的差异,你加班2小时,同事只用10秒钟
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券