腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
是否
可以
使用
DataFrames
过滤
Spark
来
返回
列表
中
列
值
所在
的
所有
行
?
、
、
如果某
列
的
值
在指定
的
列表
内,我如何才能只
返回
Spark
DataFrame
的
行
?下面是我
的
Python pandas执行此操作
的
方法:我看到了scala
的
实现,并尝试了几种排列方式,
浏览 17
提问于2017-03-14
得票数 5
回答已采纳
1
回答
我怎样才能在Scala中加入星火数据
的
列表
呢?
、
有一个
列
的
列表
对每个数据文件都是通用
的
,每个dataframe也有一些额外
的
列
。我想要做
的
是
使用
连接条件
中
的
那些公共
列
将
所有
这些数据文件连接在一起(记住,数据格式
的
数量是未知
的
) 我怎样才能把
所有
这些数据文件连接起来?我想我
可以
对它们进行foreach,但这似乎不太优雅。谁能想出一种更实用
的
方
浏览 0
提问于2018-05-15
得票数 4
回答已采纳
0
回答
将for循环应用于Pandas
中
的
多个
DataFrames
、
、
我有多个
DataFrames
,我想对它们做同样
的
事情。我只想保留
所有
值
为“passed”
的
DataFrames
中
的
行
,所以我在我
的
列表
中
使用
了一个for循环: for df in
浏览 3
提问于2016-07-11
得票数 6
回答已采纳
2
回答
Apache是如何在内存
中
工作
的
?
、
在where子句中
使用
非索引
列
查询Cassandra时,
的
说, 若要筛选
行
,
可以
使用
Spark
提供
的
筛选器转换。但是,这种方法导致从Cassandra获取
所有
行
,然后由
Spark
过滤
。如果我在where子句中
使用
City = 'Chicago‘,那么
Spark
会首先下载
所有
的10亿
行
,然后
过
浏览 1
提问于2018-04-01
得票数 3
回答已采纳
1
回答
PySpark:获取数据
中
每个
列
的
第一个非空
值
。
、
、
、
、
我正在处理不同
的
星火
DataFrames
,它们在许多
列
中都有大量
的
空
值
。我希望从每个
列
中
获取任何一个非空
值
,以查看该
值
是否
可以
转换为datetime。我尝试执行df.na.drop().first(),希望它将删除
所有
带有空
值
的
行
,而在剩余
的
DataFrame
中
,我将只获得第一
行</e
浏览 5
提问于2017-05-09
得票数 6
回答已采纳
2
回答
星火蜂巢:通过另一个DataFrame
列
的
值
过滤
一个DataFrame
的
行
、
、
、
我有以下两个
DataFrames
date | store2017-01-01 | 1但是,在我不得不删除
所有
具有date
值
的
date
行
之前,这也包含在dfPromotion
中
。date 2017-01-01 in the "date" column)=================== 2017-
浏览 1
提问于2017-03-15
得票数 1
回答已采纳
2
回答
显示具有空
值
的
所有
行
的
数据格式。
、
、
我刚开始
使用
Dataframes
,我想要做
的
是获取
所有
列
的
子集,其
值
为Null (S)。 我在网上看到
的
大多数示例都向我展示了特定列上
的
筛选函数。
是否
可以
过滤
整个数据帧并显示至少包含1个null
值
的
所有
行
?
浏览 6
提问于2022-07-30
得票数 4
回答已采纳
2
回答
火花SQL从原始文本到Parquet:没有性能提升
、
、
、
、
这些表是
使用
在原始文本中
使用
压缩从Teradata数据库导入
的
(不幸
的
是,无法与Teradata连接器一起工作)。完成
Spark
进程所需
的
时间约为1小时15分钟。为了提高性能,我想在执行进程之前,以一种更有效
的
格式(如SparkSQL )
来
转换表。根据文档和在线讨论,这将大大促进
使用
原始文本(即使
使用
snappy压缩,这在原始文本上是不可分离
的
)。因此,我用Snappy压缩以Parquet格式转换了
浏览 1
提问于2018-07-28
得票数 1
1
回答
如何将条件表达式筛选器应用于存储在dataframe
列
中
的
条件表达式
的
火花数据格式上
、
、
我有许多
DataFrames
,它们
中
的
每一个都
可以
有单独
的
过滤
器
过滤
掉数据。
过滤
器也是预先定义
的
。我计划创建一个组合
的
dataframe,它将包含
过滤
表达式作为
列
之一。在这个组合
的
dataframe
中
,我需要应用
过滤
器,它是数据
行
本身
的
一部分。|speciality == "bat&
浏览 1
提问于2021-01-05
得票数 1
回答已采纳
1
回答
如果
列表
元素
的
名称
中
包含"this text“并传递给for循环中
的
下一个元素,如何签入R?
、
、
、
、
我是R公司
的
新手,有一个包含30个元素
的
大
列表
,每个元素都是包含几百
行
和大约20
列
的
dataframe (这取决于数据格式)。我如何检查整个
列表
,只
过滤
那些不包含在文件名
中
的
特定文本
的
数据文件,并向那些
过滤
的
数据文件添加一个唯一
的
id
列
( id
值
将是该文件名
的
前三个字符)?例如,
列表<
浏览 3
提问于2022-03-10
得票数 0
回答已采纳
1
回答
将Pyspark隐藏到具有实际
值
的
列表
中
、
我正在尝试将Pyspark
列
转换为一个
值
列表
(而不是对象)。X = df.select("columnname").collect() 但是当我用它来
过滤
时,我无法。
浏览 2
提问于2020-04-22
得票数 0
2
回答
谓词下推vs布隆
过滤
器
、
在寻找大数据上
的
查询优化时,尤其是在ORC文件上,我遇到了两种可能
的
谓词下推和Bloom
过滤
器。谓词下推帮助我们避免读取不必要
的
条带,这有助于减少IO,但对我来说,Bloom Filter似乎也有相同
的
目的,除了以下几点。对于谓词下推,我们不需要在编写ORC文件时显式创建任何工件,而对于Bloom filters,我们需要在写入ORC文件时配置
列
。谢谢Santosh
浏览 0
提问于2019-02-11
得票数 2
1
回答
Excel根据
列表
结果
的
长度展开公式
我
使用
过滤
器公式
来
返回
结果
列表
。
列表
的
行长是可变
的
。对于每个
返回
值
,我需要应用一个新
的
公式。我想知道我
是否
可以
根据
列表
的
长度自动扩展这个公式
的
所有
行
。一个简单
的
例子:在单元格A1:B100上,我有一个
值
列表
。在单元格D1上
浏览 11
提问于2021-01-11
得票数 0
1
回答
星星之火-如何基于模糊名称获取
所有
相关
列
、
、
、
、
目标是
使用
product_name作为键查找
所有
相关信息。问题是,有时它被称为prod_name或其他类似的名称。另外,如果product_name链接到ser_no,那么该数据帧
中
的
信息也属于该产品。下面的例子,让我知道如果我能更好地解释这一点。 有人能帮我弄清楚这件事吗?我试图在不显式地将它们连接在一起
的
情况下自动化这个过程,因为有许多这样
的
表,而且我不知道
所有
确切
的
表/col名称。基本上,我试图从这些蜂巢表中提取与product_nam
浏览 1
提问于2021-08-28
得票数 0
回答已采纳
1
回答
为给定输入触发StringIndexer一致
的
输出
值
、
、
是否
可以
使用
Spark
的
StringIndexer为给定
的
输入始终如一地
返回
相同
的
输出(例如,标有“Apple”
的
列
总是输出,比如'56.0') 用例是当索引多个
DataFrames
并且并不是
所有
的输入都包含在这两个方面时,但是,您希望确保这些输入被转换为相同
的
索引
值
。我试图避免自己
的
字符串=>数字映射
浏览 6
提问于2017-08-26
得票数 0
1
回答
Spark
Dataframe
的
过滤
操作
、
我有一个
Spark
,我希望根据一个特定
列
的
匹配
值
从它们中选择几个
行
/记录。我想我
可以
使用
过滤
器操作或在映射转换中选择操作
来
实现这一点。但是,我想针对那些在应用
过滤
器时没有选择
的
行
/记录更新一个status
列
。那么,如何知道和更新未
浏览 0
提问于2018-07-25
得票数 1
2
回答
涉及清单
的
python熊猫
过滤
、
我目前在python2.7
中
使用
Pandas。我
的
dataframe看起来类似于以下内容: 02 [2, 3]
是否
可以
按
列
1
中
的
值
过滤
行
?例如,如果我
的
过滤
器
值
为2,则筛选器应该
返回
包含前两
行
的
数据。
浏览 5
提问于2016-07-07
得票数 0
回答已采纳
1
回答
不具有分区
列
性能
的
火花下推滤波器
我有一个关于
spark
中
的
过滤
的
问题,当你不在
过滤
器
中
包括分区
列
时。假设我有以下按日期分区
的
数据: part-0001.parquet数据有一个名为"action“
的
列
,其中大约30%
的
数据
值
为0,其余
的
数
浏览 2
提问于2020-08-02
得票数 0
2
回答
如何在
使用
schema
Spark
读取csv时删除格式错误
的
行
?
、
、
、
当我
使用
Spark
DataSet加载csv文件时。我更喜欢清晰地指定模式。但是我发现有一些
行
与我
的
模式不兼容。
列
应该是双精度
的
,但有些
行
是非数字
值
。
是否
可以
很容易地从DataSet
中
过滤
出
所有
不符合我
的
模式
的
行
?val schema = StructType(StructField("col&quo
浏览 4
提问于2018-04-09
得票数 9
回答已采纳
3
回答
在Scala
中
检查两个
Spark
DataFrames
是否
相等
、
、
、
我正在尝试在Scala中比较和检查两个
Spark
DataFrames
单元测试
的
相等性,并意识到没有简单
的
方法
来
检查两个
Spark
DataFrames
的
相等性。相当于C++
的
代码为(假设
DataFrames
在C++中表示为双精度数组): int result[10][2]; for (int row= result[row][col]) return
浏览 3
提问于2016-11-09
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
肝了3天,整理了90个Pandas案例
一文读懂 PySpark 数据框
一文读懂PySpark数据框
推荐3道趣味Python题,菜鸟来挑战一下
手把手教你做一个“渣”数据师,用Python代替老情人Excel
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券