腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
从
错误
的
JSON
合并
Spark
RDDs
、
、
、
我有很多
json
文件,但是它们
的
格式不适合
Spark
。我不想编写代码来专门将它们转换为正确
的
格式,通过规范化每一行上
的
每个字典。import
json
df = sc.wholeTextFiles(os.path.join(
jso
浏览 1
提问于2016-07-05
得票数 0
回答已采纳
2
回答
为什么斯派克在使用Kryo序列化时表现更差?
、
、
、
、
我为我
的
星火作业启用了Kryo序列化,启用了该设置要求注册,并确保我
的
所有类型都已注册。val conf = new SparkConf() 我用我
的
数据示例手动调用了serialize方法对
Spark
的
org.apache
浏览 5
提问于2017-01-09
得票数 16
1
回答
如何在火花放电中压缩多个
RDDs
?
、
、
、
在
spark
中,有zipPartitions将多个
RDDs
合并
为一个。然而,没有这样
的
方法可用
的
吡火花RDD。如果我多次使用zip,那么我会为每个rdd创建一个新
的
数据格式,这不是我想要
的
。如何才能将多个
RDDs
压缩到一个火星雨中?
浏览 2
提问于2022-02-06
得票数 1
回答已采纳
1
回答
RDDs
在
spark
中能持续多久?
、
、
、
我已经写了一个程序,在其中我将RDD持久化到
spark
stream中,这样一旦新
的
RDD来自
spark
stream,我就可以将以前缓存
的
RDD与新
的
RDD连接起来。有没有办法为这个持久化
的
RDDs
设置生存时间,这样我就可以确保我不会加入我在上一个流周期中已经得到
的
RDDs
。另外,如果有人能解释并指出
RDDs
中
的
持久化是如何工作
的
,那就太好了,比如当我
从
浏览 1
提问于2015-07-15
得票数 1
2
回答
触发本地rdd写入到本地Cassandra DB
、
、
、
我有一个DSE集群,集群中
的
每个节点都在运行
spark
和Cassandra。 当我
从
Cassandra加载数据到
spark
rdd并在Rdd上执行一些操作时,我知道数据将分布到多个节点中。在我
的
例子中,我想把这些
rdds
从
每个节点直接写到它
的
本地Cassandra dB表中,有没有办法做到这一点。如果我执行普通
的
rdd收集,来自
spark
节点
的
所有数据将被
合并
,并返回到带有驱动程序
浏览 3
提问于2020-10-20
得票数 1
1
回答
在PySpark中加入和乘以
RDDs
、
、
、
我有两个
RDDs
,我想把它们乘以键。这可以通过
合并
两个RDD并将元素乘以,或者通过在不
合并
RDD
的
情况下乘以RDD来实现。假设我有这两个
RDDs
:rdd2 = [("dog", 9), ("ox", 2), ("cat", 2)]multiplied_rdd = [(
浏览 4
提问于2021-12-17
得票数 0
1
回答
当您可以在
spark
中完成大部分工作时,为什么要使用火花核心API (RDD)?
、
、
我正在学习大数据处理
的
火花。人们建议使用HiveContext而不是SparkSqlContext。还建议使用dataframes而不是直接使用rdd。
spark
似乎对于查询计划器来说是高度优化
的
,因此,与通过scala (或python.)使用Core (RDD)相比,使用
spark
似乎是一个更好
的
选择。我遗漏了什么吗?
浏览 0
提问于2016-03-13
得票数 1
回答已采纳
1
回答
从
技术角度看RDD与Dataset/Dataframe
的
关系
我试图
从
技术角度理解
RDDs
和Dataframes/Datesets之间是否存在关系。
RDDs
通常被描述为
Spark
中
的
基本数据抽象。在我
的
理解中,这意味着Dataframes/Datasets也应该基于它。在原始
Spark
SQL Paper中,图1和图3指向此连接。但是,我还没有找到任何关于这个连接
的
文档(如果它存在的话)。所以我
的
问题是:Dataframe/Datasets是基于
RDDs</
浏览 10
提问于2020-07-24
得票数 0
回答已采纳
1
回答
加入两个RDD[String] -
Spark
Scala
、
、
、
、
我有两个
RDDS
:rdd2 [String,String,String]: Name, Address, Landmark 但是我得到了一个
错误
:join应该加入RDDString,输出
浏览 1
提问于2016-05-12
得票数 2
2
回答
通过thrift服务器
从
web浏览器访问
Spark
RDDs
- java
、
、
我们已经使用
Spark
1.2.1和Java处理了我们
的
数据,并存储在Hive表中。我们希望通过web浏览器以
RDDs
的
形式访问这些数据。 我阅读了文档,并理解了完成任务
的
步骤。我无法找到通过thrift服务器与
Spark
SQL
RDDs
进行交互
的
方法。我找到
的
示例在代码中有以下行,但我在
Spark
1.2.1Java API文档中找不到对应
的
类。HiveThriftServer2.startWi
浏览 1
提问于2015-04-24
得票数 3
1
回答
如何使用
spark
上下文访问web URL
我尝试使用textFile方法
从
spark
-shell中使用WEB,但出现
错误
。也许这不是正确
的
方式。所以谁能告诉我如何
从
火花上下文访问web URL。我使用
的
是
spark
版本1.3.0;Scala版本2.10.4和Java 1.7.0_21hduser@ubuntu:~$
spark
-shell
Spark
assembly has beenorg.apache.
spark
.rdd.RDD$$anonfun$
浏览 0
提问于2015-04-20
得票数 9
回答已采纳
1
回答
Apache
spark
:
从
xml文件或
Json
读取和替换数据库
、
、
、
、
我使用
的
是带有MS SQLServer 2012
的
Apache
Spark
1.3.0。数据库非常大,在服务器启动时将其加载到
RDDs
中需要花费大量时间。我现在正在尝试将数据库表转换为XML o
JSON
格式,并在应用程序中以
RDDs
格式加载这些文件,以减少服务器启动时间。如果有人
浏览 1
提问于2015-07-04
得票数 0
1
回答
如何知道
spark
流窗口中
的
RDDs
是否已完成
spark
作业?
、
、
我正在阅读
Spark
流媒体应用程序中来自Kafka
的
消息。有一个限制,我必须首先从每个分区中收集
错误
记录&在
spark
窗口中
的
RDDs
,然后在驱动程序上处理它们。我将在每个
Spark
窗口中获得4个
浏览 2
提问于2018-10-12
得票数 0
1
回答
如何在
Spark
Streaming上下文中创建作业日志?
、
、
我目前正在对我
的
Spark
流媒体应用程序进行性能测试。总而言之,我通过套接字连接接收
JSON
消息,每秒一条消息。然后,我使用
Spark
Streaming方法将消息作为
RDDs
处理,最后将生成
的
RDDs
打印到数据库。这是我
的
问题:每当我想要检查块处理时间或调度延迟等时,我需要转到端口4040上
的
Spark
UI。 我想做
的
是在程序运行时使用这些值创建一个Log,并将其作为txt文件存储在某个目录中。
浏览 0
提问于2016-05-06
得票数 1
1
回答
使用PySpark实现MongoDB到Elasticsearch
、
、
我想使用PySpark将我
的
MongoDB集合集成到Elasticsearch中。我有MongoDB
的
连接字符串,但我不知道如何构造代码结构或指定一些参数。有人能给我创建这个任务
的
代码示例吗?
浏览 20
提问于2021-11-10
得票数 0
2
回答
将成对RDD中
的
值相减
、
我是Scala和
Spark
的
新手。有两个
RDDs
,比如RDD_B= (keyA,3),(KeyB,7) 如何计算: RDD_A-RDD_B,这样我得到(keyA,2),(KeyB,3
浏览 32
提问于2020-05-18
得票数 0
1
回答
如何解决火花放电中
的
org.apache.kafka.clients.producer.KafkaProducer.flush()V
错误
java.lang.NoSuchMethodError
、
、
、
我从一个Kafka主题中读到了一些消息,对于每个rdd,都执行函数proccess_
rdds
。()) ssc.awaitTermination()调用o186保存时发生
错误
。火花版本: 2.4.5 非常奇怪
的
是,这个脚本有时工作时没有
错误
。
浏览 6
提问于2020-06-02
得票数 1
1
回答
Apache
spark
shell :如何设置分区数?
Apache
spark
shell上下文:使用shell时如何设置分区数量:在我正在审阅
的
文档中没有明确说明。是默认
的
2个分区吗?
浏览 13
提问于2018-09-05
得票数 0
1
回答
数据可以在Apache /Dataframe中动态加载吗?
数据可以动态加载,还是已经预加载到RDD/DataFrame中?
浏览 3
提问于2015-09-01
得票数 0
回答已采纳
1
回答
星火中
的
分区是什么?
、
我
的
理解是,当我们
从
源和位置读取到任何特定
的
Datatset时,数据集就可以被分割成多个sub-Datasets,这些sub-Datasets被称为分区,以及它在集群中分布
的
位置和方式。是对
的
吗?当我读到一些网上文章时,我产生了怀疑,上面写着 这种状态打破了我
的
地位。根据上述状态,
RDDs
or Data
浏览 4
提问于2020-09-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
想要月入30k以上,那么这门技术是必须了解的
如何高效地合并Spark社区PR到自己维护的分支
Spark Streaming和Kafka集成深入浅出
如果你想月薪超过3万英镑,那么这项技能是必要的
python项目导入上级目录设置”的setting.json是不是哪里还有错误呀?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券