腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
可以使用
Spark
ML管道加载和测试使用
Spark
MLLib构建
的
ML模型吗?
、
、
我知道
Spark
有两个用于机器学习
的
库。一个是
spark
.ml,
另一个
是
spark
.mllib。我只想知道使用
spark
.ml构建
的
spark
程序是否可以使用和测试(预测)使用
spark
.mllib pachages构建
的
模型,反之亦然?
浏览 4
提问于2017-04-24
得票数 0
1
回答
Databricks -将
Spark
dataframe
转换为表:它是相同
的
数据
源吗?
、
、
您将需要执行相当多
的
计算,从源
数据
帧
,一个
Spark
表,不是吗?或者,
dataframe
和table都是指向相同
数据
的
指针(即,在创建表时,不是在创建重复
数据
)?我猜我想要弄清楚
的
是,你是否可以从一个
Spark
数据
帧
到一个表‘开关开关’,或者这样做
的
计算量是否(非常)昂贵(毕竟这是大
数据
...)
浏览 26
提问于2021-04-26
得票数 0
3
回答
查看
Spark
Dataframe
列
的
内容
、
、
、
我使用
的
是
Spark
1.3.1。 我正在尝试查看Python中
Spark
dataframe
列
的
值
。有了
Spark
dataframe
,我可以使用df.collect()来查看
数据
帧
的
内容,但在我看来,
Spark
dataframe
列还没有这样
的
方法。例如,
数据
帧
df包含一个名为'zip_code&
浏览 1
提问于2015-06-30
得票数 43
回答已采纳
3
回答
INSERT IF NOT EXISTS ELSE UPDATE in
Spark
SQL
、
在
Spark
SQL中是否有“如果不存在则执行INSERT”
的
规定。 我有
Spark
SQL表"ABC“,其中有一些记录。然后,我有另一批记录要根据它们是否存在于该表中而插入/
更新
到该表中。
浏览 8
提问于2017-08-16
得票数 3
4
回答
如何在结构化流式传输中将
数据
帧
转换为rdds?
、
我使用pyspark流从kafka获取
数据
,结果是一个
dataframe
,当我将
dataframe
转换为rdd时,它出错了: Traceback (most recent call last):File "/home/softspyspark.
浏览 56
提问于2020-01-06
得票数 3
3
回答
我可以将pandas
数据
帧
转换为
spark
rdd吗?
Pbm: a)读取一个本地文件到Panda
dataframe
中,比如PD_DF。b)操纵/海量PD_DF并添加列到
dataframe
中。c)需要使用
spark
将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
2
回答
Apache
Spark
当调用repartition($" key ")时,当每个键
的
所有记录
的
大小大于单个分区
的
大小时会发生什么?
、
、
、
假设我有一个10 c1
的
数据
帧
,其中一个列
的
"c1“对于每条记录都有相同
的
值
。每个单独
的
分区最大为128 MB(默认
值
)。如果是这样,它不会超过每个分区
的
最大大小吗?在这种情况下,重新分区是如何工作
的
?
浏览 34
提问于2021-09-23
得票数 2
回答已采纳
2
回答
Spark
scala将
数据
框列复制到新
的
数据
框
、
我已经创建了一个带有模式
的
空
数据
帧
。我正在尝试将新
数据
帧
中
的
列添加到for循环中
的
现有列中。._1))k.show()有人能帮我一下吗? 谢谢!!
浏览 5
提问于2017-10-03
得票数 0
1
回答
pyspark查找
数据
帧
中超出范围
的
值
、
我在pyspark里有两个
数据
帧
。我正在尝试将一个
数据
帧
与
另一个
数据
帧
进行比较,以查看
值
是否在范围内。
Dataframe
dfcompare:我正在寻找
的
输出:我目前拥有的代码如下: com
浏览 0
提问于2021-03-28
得票数 1
1
回答
如何使用pyspark合并来自两个不同
数据
帧
的
数据
?
、
、
、
、
我有两个不同
的
(非常大
的
)
数据
帧
(详细信息如下)。我需要合并他们两个人
的
数据
。由于这些
数据
帧
非常庞大(第一个
数据
帧
有数百万行,第二个
数据
帧
有数千行),我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成
的
,我看到
的
教程大多只显示了一个
数据
帧
的
说明。所以,我一直想知道如何使用pyspar
浏览 11
提问于2021-06-03
得票数 0
回答已采纳
1
回答
一种
基于
字典可配置
的
spark
选项方法
、
、
我有下面的字典- config = 'inferschema':'True',}
基于
上面的JSON配置文件,我想通过使
spark
的
.option方法可配置来创建一个
数据
帧
例如,对于上面的配置和
dataframe
,option方法应如下所示
dataframe
=
spark
.read.format('CSV'
浏览 15
提问于2021-04-21
得票数 0
回答已采纳
1
回答
基于
另一个
Spark
数据
帧
的
值
更新
Spark
DataFrame
、
、
我有两个
数据
帧
,df1和df2,如下所示:+---+--------+-----+----+--------++---+--------+-----+----+--------++---+--------+-
浏览 8
提问于2019-07-12
得票数 1
3
回答
pySpark将mapPartitions
的
结果转换为
spark
DataFrame
、
、
我有一个作业需要在分区
的
spark
数据
帧
上运行,该进程如下所示: rdd = sp_df.repartition(n_partitions, partition_key).rdd.mapPartitions(lambda x: some_function(x)) 结果是pandas.
dataframe
的
rdd, type(rdd) => pyspark.rdd.PipelinedRDD type(rdd.collect()[0]) => pandas.core.frame.<
浏览 124
提问于2019-12-10
得票数 4
回答已采纳
3
回答
pyspark to hive中
的
Pandas
数据
帧
、
、
、
如何将熊猫
数据
帧
发送到hive表?我知道如果我有一个
spark
数据
帧
,我可以将它注册到一个临时表中,使用sqlContext.sql("create table table_name2as select * from table_name")AttributeError
浏览 0
提问于2016-04-28
得票数 9
回答已采纳
1
回答
Spark
-SQL :如何将TSV或CSV文件读入
dataframe
并应用自定义模式?
、
、
、
我在使用制表符分隔
值
(TSV)和逗号分隔
值
(CSV)文件时使用
Spark
2.0。我希望将
数据
加载到
Spark
-SQL
数据
帧
中,在读取文件时,我希望完全控制模式。我不希望
Spark
从文件中
的
数据
中猜测模式。 如何将TSV或CSV文件加载到
Spark
SQL
Dataframe
中,并对其应用模式?
浏览 2
提问于2017-04-20
得票数 6
2
回答
Spark
saveAsTable抛出NoSuchTableException
、
、
、
我正在使用pyspark
的
(
Spark
2.3.2) saveAsTable,如下所示: .sortBy("id") \ .option("path", "test_table.parquet") \在表已经存在
的
情况下C
浏览 1
提问于2019-10-10
得票数 0
2
回答
从RDD中
的
Pandas DataFrames创建
Spark
DataFrame
、
、
我正在尝试将每个worker节点(每个元素都是Pandas
DataFrame
的
RDD )上
的
Pandas
DataFrame
转换为跨所有worker节点
的
Spark
DataFrame
。, and I am using some datetime """ return在完成熊猫处理后,
浏览 31
提问于2019-06-05
得票数 0
回答已采纳
1
回答
创建一个空
的
数据
帧
、
因为我是新手,所以我有一个简单
的
疑问我不知道这是不是正确
的
方法 varnewdf:
DataFrame
= null; if(!但是我发现了其他
的</em
浏览 1
提问于2020-01-20
得票数 1
1
回答
如何在
spark
-SQL中进行表
的
更新
?
、
我想要
更新
spark
-SQL中
的
表中
的
一行,那么我该怎么做呢?例如,我
的
原始查询是,从学生集标记
更新
= 56,其中id =1; 如何在
spark
-SQL中做到这一点?
spark
-SQL中不支持As update。请在这方面提供帮助。
浏览 26
提问于2016-01-14
得票数 2
3
回答
将
spark
DataFrame
转换为pandas DF
、
、
有没有办法将
Spark
Df (非RDD)转换为pandas DFvar some_df = Seq( ("B", "yes"), ("B",
浏览 2
提问于2018-06-21
得票数 51
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
大数据之spark基础知识
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
PySpark,大数据处理的Python加速器!
自定义开发Spark ML机器学习类
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券