腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
通过
列表
字典
迭代
过滤
spark
数据
帧
、
、
、
我有一个
字典
,它看起来像这样的a_dict={"E1":["a",10,20,"red"],"E2":["b", 7, 14,"green"],"E3":["c",40,50,"blue"]],但更长,我想用每个
列表
元组同时
过滤
一个
spark
数据
帧
。让我们来看一个
数据
帧
的例子
浏览 12
提问于2021-04-30
得票数 1
回答已采纳
1
回答
将用户定义的函数应用于PySpark
数据
帧
并返回
字典
、
、
假设我有一个名为df的熊猫
数据
帧
1 2 13 4 5d = dict() x = do_something (row)我正在尝试使用
Spark
重新实现这个函数。(udf_do ('id','value1','value2
浏览 4
提问于2017-08-25
得票数 0
1
回答
在一次保存中保存所有
字典
键
、
、
blob'}, ])如你所见,我有城市的关键字,然后是里面的人的
字典
列表
在所有的键中,
字典
中都有一些共享的键,比如年龄和名字,但每个
字典
也有唯一的键。现在,为了将其输出到csv,我
迭代
了rdd的每个键,将
字典
列表
转换为
s
浏览 2
提问于2017-01-20
得票数 0
2
回答
在
Spark
Dataframe上重复
过滤
?
、
、
我有一个大的
Spark
数据
帧
,其中包含各种财务信息,假设模式如下所示: Amount 0 10.000 5.001 15.15 我想要做的是
迭代
浏览 13
提问于2020-07-22
得票数 1
2
回答
Scala
Spark
Mongo -带有"in“子句的
过滤
器
、
、
为了使用
spark
从这个集合中读取
数据
,我使用了以下连接器: <dependency> <version>2.4.2</version></dependenc
浏览 37
提问于2020-12-28
得票数 0
2
回答
如何在pyspark中创建包含两个dataframe列的
字典
?
、
我有一个包含两列的
数据
帧
,如下所示: df =
spark
.createDataFrame([('A', 'Science'), ('A', 'PhysicsPhysicsB EnglishC English C Latin 我需要为Group列中的每个唯一值
迭代
此
数据
浏览 31
提问于2020-07-01
得票数 1
回答已采纳
2
回答
在
spark
1.5.1中对regex列使用rlike
、
、
我希望
通过
将其中一列中的regex值应用于另一列来
过滤
数据
帧
。.*在
spark
1.5.1中有没有办法做到这一点?我不想使用UDF,因为这可能会导致可伸缩性问题,寻找
spark
原生api。
浏览 2
提问于2020-03-18
得票数 0
1
回答
将Pandas
数据
帧
转换为每列
字典
列表
的最佳方法
、
、
、
我有一个熊猫
数据
帧
,它的大小/形状未知。我需要将此
数据
帧
转换为具有以下布局的
字典
列表
: [{"heading": column2name, "values":[list of column 2 values]},] 我目前正在
通过
浏览 7
提问于2020-12-28
得票数 1
回答已采纳
1
回答
Spark
JDBC关系
数据
库取数优化
、
a)与传统的java JDBC调用相比,
Spark
有没有一种方法可以优化从关系
数据
库获取
数据
。b)如何在运行
Spark
查询时减少
数据
库的负载,因为我们将为所有查询直接命中生产
数据
库。假设
Spark
报告案例的生产中有3000万条订单记录和1.5亿条订单行记录。
浏览 2
提问于2015-08-18
得票数 2
1
回答
使用谓词下推
过滤
来自另一个
数据
帧
的
数据
帧
如何将
过滤
器下推到基于我拥有的另一个
数据
帧
的
数据
帧
读数?基本上,我希望避免完全读取第二个
数据
帧
,然后进行内部连接。相反,我只想在读数上提交一个
过滤
器,以便在源代码上进行
过滤
。即使我使用了一个包含在read中的内部连接,该计划也没有显示出它正在被
过滤
。我觉得肯定有更好的方法来设置它。使用
Spark
2.x,到目前为止我已经有了这个,但我想避免收集如下
列表
: //
浏览 0
提问于2018-04-06
得票数 3
1
回答
Spark
在
数据
库上运行
过滤
器,而不是在
spark
数据
帧
上运行
、
、
因为我是
Spark
的新手,也许我错过了这里的一些东西。 & (col("
浏览 11
提问于2020-03-01
得票数 0
1
回答
在循环中高效地聚合(fitler/select)大型
数据
帧
并创建新的
数据
帧
、
、
、
、
我有一个
通过
导入csv文件(sparkscv)创建的大型
数据
帧
。这个dataframe有很多行的日常
数据
。
数据
由日期、区域、service_offered和计数标识。如何先将select/filter保存到
列表
中,然后在生成最终
数据
帧
之前追加这些选择/
过滤
器?那360个
列表
呢?下面是我的循环/聚合
数据
的代码 #
spark
session
spa
浏览 15
提问于2020-10-16
得票数 0
1
回答
当
字典
具有不同的键时,将Python
字典
合并到
Spark
数据
帧
中
、
、
、
、
如果我有一个
字典
列表
,如下所示:如何才能将
列表
转换为
Spark
dataframe,而不丢弃
字典
之间可能无法共享的任何键?例如,如果我使用sc.parallelize(list).toDF(),对于第二个
字典
,结果<
浏览 35
提问于2020-02-27
得票数 1
回答已采纳
1
回答
一种基于
字典
可配置的
spark
选项方法
、
、
我有下面的
字典
- config = 'inferschema':'True',} 基于上面的JSON配置文件,我想
通过
使
spark
的.option方法可配置来创建一个
数据
帧
例如,对于上面的配置和dataframe,option方法应如下所示 dataframe=
spark
.read.format('CSV').option("hea
浏览 15
提问于2021-04-21
得票数 0
回答已采纳
2
回答
在
数据
帧
上创建
Spark
作业的时间非常长,其中包含多个
过滤
条件
、
我有一个具有shape (1e10, 14)的PySpark
数据
帧
,我想用大约50个复合OR语句对其进行
过滤
,即:(col1='val1' and col2=5) orcol2=5) or"df_f.limit(1000).show() 如果这些单个OR语句的数量小于10,则会立即创建show方法的
Spark
然而,对于大约15个OR,创建
Spark
Job已经需要大
浏览 0
提问于2020-05-04
得票数 0
1
回答
以键为列将json
字典
转换为
spark
dataframe
、
、
是否可以
通过
将键作为具有以下值的列来将
字典
转换为
数据
帧
?created': '2020-10-29T00:00:00+00:00', 'published': 'YES',} 如果我将其转换为
数据
帧
,如下所示: json_rdd=sc.parallelize([data_dict['information&
浏览 8
提问于2020-11-19
得票数 0
回答已采纳
1
回答
使用Hive表
迭代
Spark
数据
帧
、
、
、
、
我有一个非常大的csv文件,所以我使用
spark
并将其加载到
spark
数据
帧
中。 color="#0A8A9F",fill=True).add_to(marker_cluster) 我发现与pandas
数据
帧
不同,
spark
数据
帧
不能被循环=>处理。所以我想我可以产生这个问题,把大<
浏览 27
提问于2018-05-30
得票数 0
1
回答
熊猫将dict转换为dataframe时的内存错误
、
、
、
我有一个
字典
变量,它的维数几乎为70K×70K,我想将它转换为Dataframe,以便
通过
但在工作5分钟后,我会出现以下错误:Memory Error作为包;它是一个bu
浏览 0
提问于2018-04-26
得票数 0
1
回答
Pandas:
数据
帧
字典
、
我有一个分析实验
数据
的函数(所有单独的.txt文件)有没有一种有效的方法来
迭代
这个
字典
并输出单独的
数据
帧
?假设我的
字典
叫做analysisdict dfx=pd.concat([analysisdict[key]['X'], analysisdict[key]['Y']], axis=1) 其中dfx将
浏览 1
提问于2017-12-29
得票数 0
回答已采纳
1
回答
如何使用
Spark
对WHERE IN进行长查询?
、
我有一个大型
数据
库,其中有大约500 of的列
数据
。我试图在DataBricks上使用
Spark
访问
数据
,但查询太长,无法让我获得我感兴趣的
数据
。我是个新手,所以如果这个问题不完全有意义,请原谅。期望:一次性获取所有
数据
,以便我可以对集群进行一些分析。
浏览 146
提问于2019-04-20
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python如何透过某个字段取得集合里面的值
Python 高效编程技巧
Python指南:组合数据类型
我珍藏的一些好的 Python 代码技巧
1.1 解压序列赋值给多个变量
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券