腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
当
基于
列
的
条件
也
必须
满足
时
,
如何
从
Spark
数据
帧
中
随机
选择
行
、
、
、
假设我们有一个
Spark
dataframe df,其中有一
列
col==0,其中此列
中
的
值仅为0和1。我们
如何
选择
所有
行
中
包含col==1
的
行
,以及50%
的
行
中
包含col==0
的
行
?50%
的
col==0人群应该是
随机
选择
的
。 sample方法允许
随机
浏览 14
提问于2019-07-03
得票数 1
回答已采纳
2
回答
R:
如何
用另一个
数据
帧
的
随机
抽样
行
替换
数据
帧
中
的
有
条件
行
?
我需要有
条件
地将
数据
帧
(x)
中
的
行
替换为
从
另一个
数据
帧
(Y)
中
随机
选择
的
行
,两个
数据
帧
之间
的
行
的
.Some是相同
的
,因此
数据
帧
x将包含具有重复信息
的
行
。要实现这一点,我
浏览 3
提问于2019-03-25
得票数 0
回答已采纳
1
回答
以一种不危险
的
方式
基于
布尔值
选择
行
、
、
这是一个简单
的
问题,因为它是如此基本。请看-在R
中
,
当
您想要根据某个
条件
从
数据
帧
中切片行时,您只需编写
条件
,它就会
选择
相应
的
行
。例如,如果您有一个
条件
,即只有dataframe
中
的
第三
行
满足
该
条件
,则它将返回第三
行
。很简单。 在python
中
,你
必须
浏览 13
提问于2021-07-23
得票数 1
1
回答
使用np.select根据来自多个其他
列
的
数据
生成
条件
列
、
、
我正在尝试在现有的dataframe上生成一个新
列
,该
列
是
基于
条件
语句构建
的
,输入是来自dataframe
中
多个
列
的
数据
。我在阅读
时
使用了np.select()方法,这是使用多列作为
条件
级别的输入
的
最佳方式。但是,当我运行代码
时
,即使
满足
行
中
的
条件
,
也
会填充
浏览 14
提问于2019-08-10
得票数 0
回答已采纳
2
回答
按
列
划分
的
子集和data.table
的
随机
抽样
行
、
@gented
的
答案演示了
如何
从
data.table
中
随机
选择
行
的
子集。如果我想在data.table中
选择
某一
列
中
的
值
满足
特定
条件
的
所有
行
,并从同一
列
中
的
值
满足
不同
条件
的
data.table
中<
浏览 1
提问于2019-07-04
得票数 0
回答已采纳
1
回答
根据2
列
的
条件
随机
创建
数据
帧
抽样
、
、
、
我有一个有10,000,000
行
和5
列
的
dataframe A,如下所示:rs1 2.3 0.22 sss ff 472使用R,我想用A
中
的
所有
列
生成50个新
的
数据
帧
,按照下面的方式遍历前50
行
。对于REC、AF
列
中
的
每一个i、j,<
浏览 0
提问于2019-07-08
得票数 0
回答已采纳
1
回答
连接两个没有重叠
的
大区域
的
大型表
假设我有以下连接(
从
Spark
documentation修改): impressionsWithWatermark.join( expr("""我认为连接两个表
中
的
所有内容是不必要
的
。我想要做
的
是创建子集,类似于这样:创建365 *2*2个较小
的
数据
帧
,以便在两年内每个表
的
每一天都有一个
数据
帧
,然后创建3
浏览 11
提问于2021-08-13
得票数 0
回答已采纳
1
回答
标识
满足
条件
的
DataFrame索引对象
、
当
满足
特定
条件
(例如对于给定
列
)
时
,
如何
从
DataFrame
中
获取索引对象?下面返回一个具有Series值
的
True/False对象,其中
满足
my_dataframe
的
foo
列
中
的
某些
条件
: true_entries = my_dataframe['foo'].apply(my_lambda_fun
浏览 3
提问于2013-07-26
得票数 1
1
回答
Pandas
中
容易混淆
的
关键错误
、
、
当我在Python
中
运行各种命令
时
,我遇到了各种关键错误,我不知道为什么会发生这种情况。我知道键错误是在找不到字典键
时
导致
的
,但据我所知,我调用
的
键在
数据
集中。可以工作
的
df['LOB']=df['LOB'].astype(object) (我需要更改
数据
类型)。但是,一旦我尝试过滤此字段上
的</
浏览 13
提问于2020-02-13
得票数 1
回答已采纳
2
回答
ColumnarToRow是
如何
在
Spark
中高效运行
的
、
、
、
在我
的
理解
中
,
列
格式更适合于MapReduce任务。即使对于某些
列
的
选择
,columnar
也
能很好地工作,因为我们不必将其他
列
加载到内存
中
。但是在
Spark
3.0
中
,我看到在查询计划
中
应用了这个ColumnarToRow操作,根据我
从
可以理解
的
,查询计划将
数据
转换为
行
格式。 它
如何
比柱状表示更
浏览 13
提问于2020-11-12
得票数 10
1
回答
如何
根据
条件
删除Pandas
数据
帧
中
特定数量
的
随机
行
?
、
我想从
数据
帧
中
删除特定
的
'n‘行数,其中要删除
的
行
是
随机
选择
的
。此外,它还
必须
根据特定
列
值
的
条件
选择
行
。e7 1 g9 0 i 现在,我想
随机
删除n=2
行
,这有一个
条件
,其中
浏览 6
提问于2019-08-02
得票数 2
回答已采纳
2
回答
检查一个
数据
帧
的
列
是否存在于R
中
具有非零元素
的
另一个
数据
帧
中
。
我想检查一个
数据
帧
的
列
是否存在于另一个
数据
帧
中
,第二个
数据
帧
中
的
列
的
值应该是非零。例如,indx1 indx2ac tg 0col1 aa 1 ab 20 1 1 D 0
浏览 3
提问于2021-06-20
得票数 2
回答已采纳
1
回答
使用一
行
访问Pandas
数据
帧
中
的
数据
、
、
、
我使用Pandas dataframes来操作
数据
,我通常将它们可视化为虚拟电子表格,由
行
和
列
定义单个单元格
的
位置。我对分割
数据
帧
的
方法很满意,但
当
数据
帧
只包含一
行
时
,似乎有一些奇怪
的
行为。基本上,我希望
从
满足
特定
条件
的
大型父
数据
帧
中
选择
<
浏览 2
提问于2016-04-23
得票数 2
回答已采纳
2
回答
当
一
行
满足
某个
条件
时
,
如何
更改后续
行
值?
、
我只是想知道,
当
数据
帧
中
满足
条件
时
,是否有人知道
如何
让R更改所有未来
的
行
值? 也就是说,假设在
数据
列
中有一个负值-我希望R测试该
列
中
的
负值和该值以及后续
行
0
中
的
值(无论负值后面的值是否为负)。
浏览 22
提问于2021-01-21
得票数 0
回答已采纳
2
回答
添加计数器
满足
特定
条件
、
、
问题陈述 只有当Column1 > 1和Column2 = 0
中
的
值增加
时
,计数器才会增加。计数器
必须
在
满足
条件
的
行
的
2个值之
浏览 2
提问于2017-05-26
得票数 1
回答已采纳
2
回答
在
满足
条件
后使用dplyr修改以下行
、
我正在尝试通过dplyr
中
的
ifelse语句添加一个新
列
,其中
的
字符串
基于
另一个
列
。
当
满足
条件
时
,我还希望下面两
行
也
显示相同
的
值。 我展示了mtcar
数据
集中
的
一个示例。ifelse(mpg>20,"Event", "No event")) %>% mutate(type=
浏览 20
提问于2020-08-04
得票数 3
回答已采纳
2
回答
如果
满足
某些GroupBy
条件
,则从原始Pandas
数据
中
删除
行
、
、
、
我正在尝试构建一种快速Pandas方法,用于在
满足
某些
条件
时
从
Dataframe
中
删除某些
行
。具体来说,如果该行
中
的
其他值等于0,则我希望删除dataframe
中
某些变量
的
第一个匹配项。foo‘
列
是一个新值
时
,我想查看第一
行
,如果该行
中
的
'bar’值= 0,则将其
从
dataframe
中</em
浏览 4
提问于2020-02-10
得票数 2
回答已采纳
1
回答
Excel -计数
行
,其值
满足
不带助手
列
的
复杂
条件
。
、
假设我有4
列
A、B、C和D,其中每列有100
行
随机
整数(例如1到10)。 我知道我可以添加另一个(助手)
列
E来保存每一
行
的
条件
值,然后在该列上执行一个COUNTIF,但如果可能的话,我真的想避免这样做,因为我
的
电子表格中有许多由4
列
组成
的
组
浏览 0
提问于2016-10-31
得票数 1
回答已采纳
1
回答
使用
spark
将
数据
插入配置单元表
的
问题
、
、
、
目前我正在开发
Spark
版本2.1.0,作为我
的
数据
摄取工作
的
一部分,我
必须
使用ingest方法将
数据
摄取到hive表
中
。但是
Spark
2.1版本有一个bug,
当
插入
数据
到hive表
中
时
,insertinto方法不会保持
列
顺序。我已经尝试在append模式下使用saveAsTable方法,但它不会起作用,因为在
数据
摄取之前,我首先使用正确<em
浏览 15
提问于2019-02-26
得票数 0
2
回答
df[df['col‘]和df['col’]之间
的
差异?
、
、
、
我在编码方面是新手,我想真正理解它,我
必须
真正掌握这些概念。为什么我们要做df[df‘’col‘] == x?而不是df‘’col‘== x?在搜索
的
时候?我理解在第二个表达式
中
,我将看到等于X
的
列名,但是我很想知道添加一个list (df[])对代码有什么作用 我很想知道这两者之间
的
区别,以及我在列表
中
嵌套
列
的
时候实际上在做什么。
浏览 6
提问于2022-06-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
Hive底层数据存储格式详解
AI 时代,你需要了解的数据库架构设计和内存优化思路
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
HBase应用与发展之HBase RowKey与索引设计
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券