腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
乘以
两个
RDD
、
、
我对
pyspark
是个新手。我一直
在
尝试将
两个
稀疏
RDD
相乘。whichI尝试生成
两个
稀疏矩阵的代码,我写了一个函数来
乘以
两个
RDD
,但我认为这不是解决方案,因为计算不是并行进行的。有人能帮我一下吗?如何并行地
乘以
RDD
?我在这些网站上尝试了很多资源,但没有想出解决方案。import findsparkimport numpy as np import
pyspark</e
浏览 28
提问于2019-11-02
得票数 1
2
回答
访问火花放电
中
的JavaRDD
、
、
、
在
中
,我通过调用从Java加载的类的静态函数来创建一个JavaRDD对象。是否可以使用
Pyspark
访问这个JavaRDD? 从SqlContext访问表。获取表的
RDD
,并将其内容映射回反序列化版本。
浏览 8
提问于2015-08-20
得票数 3
1
回答
在
PySpark
中加入和
乘以
RDDs
、
、
、
我有
两个
RDDs,我想把它们
乘以
键。这可以通过合并
两个
RDD
并将元素
乘以
,或者通过
在
不合并
RDD
的情况下
乘以
RDD
来实现。假设我有这
两个
RDDs:
rdd
2 = [("dog", 9), ("ox"
浏览 4
提问于2021-12-17
得票数 0
2
回答
火花相交
、
我希望
在
pyspark
中
得到
两个
RDD
的交集。它们看起来如下:
rdd
2 = sc.parallelize([["abc","123"],["df",345],["ghi","678"]) 是否可以使用
pyspark<
浏览 4
提问于2016-12-19
得票数 1
回答已采纳
1
回答
需要
RDD
的实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
、
、
、
嗨,我
在
Notebook中有这段代码,并尝试编写python spark代码: spark.sql("SELECTdf,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temper
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
1
回答
电火花
rdd
滤波器重复
、
、
我有这个
rdd
我对python和
pyspark
很陌生,我只想用
RDD
方式来解决这个问题,我知道使用dataframe方法的解决方案,但只需要使用
rdd
我试图
在
计数单个元组
浏览 3
提问于2020-09-04
得票数 0
回答已采纳
1
回答
加入
PySpark
不加入任何值
、
、
、
、
在
PySpark
中
,我想用键值对对
两个
RDD
进行完全的外部连接,其中键可以是None。])看起来,
PySpark
加入了键为空的记录:>>> [(None, ('a','c')), (None, ('a'
浏览 0
提问于2016-03-02
得票数 1
1
回答
RobustScaler in
PySpark
、
、
在
滑雪板
中
,可以
在
。import name 'RobustScaler' from '
pyspark
.ml.feature' [ -2., 1., 3.],
浏览 0
提问于2020-01-24
得票数 4
回答已采纳
2
回答
如何将2个RDDs的列从单个
RDD
中
添加到其中,然后根据
PySpark
中
的日期数据进行行聚合
、
、
、
、
我
在
PySpark
中有
两个
PySpark
:[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00
RDD
2:
两
浏览 7
提问于2015-12-07
得票数 5
1
回答
如何使用
pyspark
.mllib
rdd
api度量来测量
pyspark
.ml (新数据帧api)?
、
、
MlLib的旧API有评估指标类:,而新的dataframe API没有这样的类:
浏览 0
提问于2016-09-06
得票数 0
2
回答
将数据保存到HDFS的格式是什么?
、
、
、
在
dataframe或
rdd
中
是否有其他格式可用于
在
Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
电火花纱获得烟斗拒绝许可
、
、
我试图用CDH
在
纱线上运行电火花,在这个生火的主程序
中
,有一条类似于
rdd
.pipe("XXX.sh")的语句,每次我运行它时,都会弹出一个被拒绝的错误,我该怎么办来解决这个错误呢?谢谢。_0079/container_1495632173402_0079_01_000001/
pyspark
.zip/
pyspark
/
rdd
.py",第2346行,
在
"/data/yarn&
浏览 3
提问于2017-05-25
得票数 0
2
回答
如何在火花放电中将密集向量的关系式转换成DataFrame?
、
、
、
、
我有这样的DenseVector
RDD
[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,/sql/session.py", line 520, in createDataFrame File "/opt/BIG-DATA/spar
浏览 3
提问于2016-12-26
得票数 11
回答已采纳
2
回答
使用
pyspark
将
两个
csv文件连接到键值
rdd
中
、
、
、
我正在尝试使用
pyspark
将
两个
没有共同之处(没有键是公共的)的csv文件组合成一个键值成对的
rdd
让我们假设A.csv有 ac 而B.csv有 13
在
pyspark
中有没有一个选项可以通过连接这
两个
来获得一个
rdd
,就像这样 a:1c:3 当然,
两个
csv文件
中
的行数应该匹配。这是
在
pyspark
中
很容易做的事情,还是应该首先在常规的python<em
浏览 13
提问于2019-12-17
得票数 0
1
回答
Pyspark
:使用map函数而不是collect来迭代RDDs
、
、
在
PySpark
中
,我有
两个
RDD
,它们的结构是(key,list of list):[(u'100', (u'200', [[u'5196352600', u'194837393', u'99']])
浏览 0
提问于2017-10-12
得票数 0
1
回答
对象
在
尝试收集
RDD
时不可迭代,
pyspark
、
、
、
、
在
将一个顶级外部函数传递到
RDD
_old.reduceByKey之后,当我试图从
RDD
_new收集结果时,出现了这个错误。,edge): self.edge = edgeDictionary
RDD
= sc.parallelize([treeStruct1,treeStruct2]) 然后,我将一个定义
在<
浏览 0
提问于2017-03-08
得票数 0
1
回答
如何通过
在
python
中
添加2个
RDD
的对应元素来创建
RDD
、
、
所以我有
两个
RDD
1 (假设是
RDD
1和
RDD
2),每个都有一个数字列表。这
两个
列表的大小相同。我想创建一个
RDD
3,其中
RDD
3
中
的每个元素都是
RDD
1和
RDD
2的相应元素的相加。如何在python中使用
pyspark
函数完成此操作?
浏览 12
提问于2020-07-10
得票数 0
1
回答
Pyspark
:“
rdd
”对象没有属性“平面映射”
、
、
、
我是刚接触过
Pyspark
的人,我实际上是
在
尝试用
Pyspark
对象构建一个平面图。但是,根据文档,即使这个函数显然存在于吡火花
RDD
类
中
,我也无法使用它并得到以下错误:我在下面一行
中
调用后一个函数: my_
rdd
= my_
rdd
.flatmap(lambda r: (r[5].s
浏览 2
提问于2018-10-28
得票数 4
回答已采纳
1
回答
如何将<class‘class’_. How .
、
、
、
、
中
,当它运行model = kmeans.fit(vdf)时,我得到了以下错误:
在
org.apache.spark.api.python.PythonRunner/lib/
pyspark
.zip/
pyspark
/worker.py",第106行
中
,
在
process serializer.dump_stream(split_index迭代器)
中
,
在
文件&quo
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
1
回答
在
pyspaek
中
组合
两个
rdd
、
、
、
我
在
pyspark
有
两个
rdd
rdd
2=sc.parallelize(['c','d'])
rdd
3=
rdd
1.map(lambda x:x)+
rdd
2.
浏览 13
提问于2019-11-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
遇见YI算法之初识Pyspark(二)
PySpark,一个大数据处理利器的Python库!
机器学习实践:如何将Spark与Python结合?
PySaprk之DataFrame
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券