腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
如
何在
spark
中
创建
对
不同
RDD
执行
不同
转换
的
管道
、
、
我在kafka流中有两个主题,我想在一些
RDD
集上
执行
一个
转换
,在其余
的
RDD
上
执行
另一个
转换
。下面是在
spark
流
中
获取kafka数据
的
代码 KafkaUtils.createDirectStreamkafka.serializer.StringDecoder.class, kaf
浏览 0
提问于2017-11-28
得票数 0
回答已采纳
1
回答
在使用PySpark时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学
Spark
programming,并试图用PySpark重新编写一个现有的Python应用程序。然而,我仍然
对
如
何在
PySpark中使用常规Python对象感到困惑。我了解
Spark
中
的
分布式数据结构,
如
RDD
、DataFrame、Datasets、vector等。
Spark
有自己
的
转换
操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
Spark
函数在使用map时会产生酸洗错误。
、
、
、
我有以下结构
的
RDD
:
rdd
2=my_
rdd
.map(lambda f: f.text.split()) print(x) 它给了我预期
的
输出然而,当我尝试
浏览 7
提问于2021-03-27
得票数 0
1
回答
在数据流
中
缓存数据集
、
我想知道我是否可以在Google Dataflow平台上直接缓存数据集(就像在
Spark
中
缓存RDDs一样)。如果没有这样
的
功能,Dataflow如
何在
应用程序
中
挑选热门数据集,特别是当您有多个热门数据集,并且您希望根据数据集
的
重要性来确定缓存
的
优先级时?
浏览 1
提问于2017-09-02
得票数 2
2
回答
如何为Scala
中
的
函数分配
不同
的
返回类型?
、
、
、
我试图编写一个函数,它应该根据输入返回
不同
的
对
。我已经重写了Scala
中
的
"+ -/ *“以供我
的
特定用途。每个实现( +,-,*,/)都有三个基于输入
的
实现。现在,我有了一个解析器,它从输入(
如
:
RDD
+1 )读取表达式,解析它并
创建
后缀,以使计算更容易,比如:
RDD
1+,然后我想使用实现
的
+进行计算。在
的
帮助下,我试图
浏览 3
提问于2015-07-02
得票数 0
回答已采纳
1
回答
Apache如何实现洗牌阶段?
、
、
我想知道Apache是如何实现洗牌阶段
的
。它是否使用与MapReduce相同
的
技术?rddA.map1.groupByKey();rddY = rddB.map4.map5.saveAsTextFile(); 它是否
执行
然后读取中间文件2次,一次用于map2 map3分支,另一次用于map4 map5,而无需再次计算rddB,即使我们没有在rddB上
执行
隐式缓存?
浏览 1
提问于2015-04-21
得票数 0
回答已采纳
1
回答
SparkML (Scala)
中
并行训练独立模型
、
、
、
假设我有3个简单
的
SparkML模型,它们将使用相同
的
DataFrame作为输入,但完全独立于彼此(无论是在运行
的
序列
中
还是在所使用
的
数据列
中
)。我想到
的
第一件事就是
创建
一个
管道
数组,其中包含三个阶段数组
中
的
模型,并运行总体拟合/
转换
来获得完整
的
预测等等。但是,我
的
理解是,因为我们将这些模型作为一个序列堆叠在一个
管道
<
浏览 3
提问于2021-01-04
得票数 0
回答已采纳
3
回答
如
何在
Spark
streaming
中
获取当前批量时间戳
、
、
如
何在
Spark
streaming
中
获取当前批量时间戳(DStream)?在
执行
过程
中
,我需要当前
的
时间戳来验证输入数据
中
的
时间戳。如果我与当前时间进行比较,那么每次
RDD
转换
执行
时,时间戳可能会有所
不同
。 有没有办法获得时间戳,当特定
的
Spark
s
浏览 4
提问于2015-12-23
得票数 4
1
回答
将
RDD
转换
为DataFrame并再次返回
的
开销是多少?
我
的
假设是,星火数据帧是由RDDs构建
的
。然而,我最近了解到情况并非如此,很好地解释了它们不是这样
的
。 那么,将
RDD
转换
为DataFrame并再次返回
的
开销是多少?它是可以忽略不计
的
还是重要
的
?在我
的
应用程序
中
,我通过将文本文件读取到
RDD
中
来
创建
DataFrame,然后使用返回Row()对象
的
映射函数定制编码每一行。我不应该这么做吗?有没有更
浏览 0
提问于2019-04-27
得票数 0
回答已采纳
2
回答
如何将列
转换
为向量类型?
、
、
我在
Spark
中有一个
RDD
,其中
的
对象基于case类:我想使用
Spark
的
ML
管道
,所以我将其
转换
为
Spark
数据帧作为
管道
的
一部分,我希望将其中一列
转换
为其条目为向量
的
列。由于我希望该向量
的
长度随模型
的
不同
而变化,因此应该将其作为特征<e
浏览 2
提问于2016-03-18
得票数 6
2
回答
Apache星火库
中
的
转换
过程
、
转换
基于现有的
RDD
创建
新
的
RDD
。基本上,RDDs是不可变
的
,而
Spark
中
的
所有
转换
都是惰性
的
。RDDs
中
的
数据在
执行
操作之前不会被处理,但是如果不处理数据,如何
创建
新
的
RDDs?例如,在filter操作
中
,如
何在
不实际将
RDD
加载到内存并进行处理<em
浏览 2
提问于2016-09-03
得票数 4
回答已采纳
2
回答
在
Spark
中
创建
二进制直方图
、
、
、
、
假设我有一个包含以下两列
的
dataframe (df) (Pandas)或
RDD
(
Spark
):12345.0 10 在Pandas
中
,我可以很容易地
创建
不同
bin长度
的
二进制直方图。例如,要
创建
一个超过1小时
的
直方图,我
执行
以下操作: df = df[ ['timestamp', 'data'] ].s
浏览 1
提问于2015-12-29
得票数 1
2
回答
火花:如何将
RDD
转换
为用于
管道
的
Seq
、
、
、
、
我想在MLlib中使用
管道
的
实现。以前,我有一个
RDD
文件并将其传递给模型
创建
,但是现在要使用
管道
,应该有要传递给
管道
的
LabeledDocument序列。我有我
的
RDD
,它
创建
如下:val parsedData = data.map { line => val partsline.spli
浏览 1
提问于2015-06-19
得票数 1
回答已采纳
1
回答
坚持
Spark
2.0指
的
是什么?
、
我有一个
RDD
,
rdd
= sc.Textfile(file.txt),我调用
rdd
.persist(),然后重新分配它:
rdd
=
rdd
.filter(lambda x: 'hi' in x)。现在是将sc.Textfile(file.txt)持久化在内存
中
,还是将
rdd
.filter(lambda x: 'hi' in x)持久化?
浏览 0
提问于2018-02-20
得票数 0
1
回答
这两种连接两种数据格式
的
方法有什么区别?
、
、
这两种连接两种数据格式
的
方法有什么区别? 在数据文件中使用"createOrReplaceTempView“,并使用sparkSession.sql()。
对
两个dataframes使用dataframe.alias(),然后使用join()方法
浏览 0
提问于2018-12-17
得票数 2
回答已采纳
1
回答
惰性数据结构是如何工作
的
对
星火中
的
action and transformation有一些疑问。 我使用
的
是过去几个月
的
spark
API。(Learned)
Spark
api有一个强大
的
功能,在采取任何操作将最终
转换
后
的
数据存储到某个地方之前,它不会将任何数据加载到内存
中
。这是正确
的
理解吗?更精确
的
定义:
Spark
将使用applied operation, source
R
浏览 18
提问于2020-04-12
得票数 0
1
回答
从
Spark
写入DynamoDB
、
、
、
我正在尝试使用
spark
从亚马逊s3获取一个文件(以DataFrame或
RDD
的
形式),
执行
一些简单
的
转换
,然后将文件发送到DynamoDB上
的
一个表
中
。在阅读了其他一些论坛帖子后,我开始了解到读/写DynamoDB需要使用hadoopRDD -这与
spark
中
的
RDD
不同
-也
不同
于我检索s3文件
的
方式。我该如何将Da
浏览 0
提问于2016-05-26
得票数 7
1
回答
在星火中使用Hadoop作业
、
、
、
我可以在Hadoop中使用它们,方法是
创建
一个作业对象,然后将所需
的
Mapper和Reducer类设置如下: j.setMapperClass(CustomMapper.class);我如
何在
使用Java
的
星火中实现同样
的
目标?我
创建
了一个java对象,如下
浏览 4
提问于2020-02-23
得票数 0
1
回答
是否可以在scala中将apache ignite
rdd
转换
为
spark
rdd
、
、
、
、
我
对
apache ignite和
spark
都是新手。在scala
中
,有没有人可以通过示例将ignite
rdd
转换
为
spark
rdd
?更新-使用案例:我将收到hbase表
的
数据帧..我将
执行
一些逻辑来构建报告,将其保存到ignite
rdd
中
。将为每个表更新相同
的
ignite
rdd
...一旦所有的表都被
执行
,最终
的
igni
浏览 3
提问于2016-09-26
得票数 0
1
回答
如何使用
spark
streaming
创建
一个类似于storm
的
多级
管道
?
、
、
我正在思考如何使用
spark
streaming
创建
一个类似于storm
的
多级(基于图形
的
拓扑)流应用程序。在风暴
中
,我们有了喷嘴,螺栓
的
概念,我们可以将这些概念链接起来形成一个图,
不同
种类
的
螺栓链接在一起来
执行
不同
的
任务。螺栓/喷嘴可以独立地
执行
它们
的
工作,并将结果进一步传递到下游。如何使用
spark
streaming实现类似的功能
浏览 1
提问于2020-08-10
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据之谜Spark基础篇,Spark RDD内幕详解
Spark计算详解
什么是 Spark RDD?
深入浅出Spark(二):血统(DAG)
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券