腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在Apache
Spark
中实现递归算法?
、
、
、
我有一个问题,我想在
Spark
中实现一个递归算法,并希望了解是否有任何建议可以在
Spark
中构建它,或者探索其他可能更适合的数据分析
框架
。构建一个在单个节点上运行的解决方案是很简单的(例如,
spark
master),但假设目录结构非常
大
,具有O(十亿)个叶节点。对于使用
Spark
或其他
框架
/
数据处理
技术构建递归/迭代类型的数据管道,有什么建议吗?
浏览 37
提问于2021-06-24
得票数 0
1
回答
Pyspark能否使用JDBC传递Alter Table
、
、
、
我知道我可以使用
spark
.read.jdbc传递查询,但在本例中,我想在数据加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的数据加载过程。
浏览 22
提问于2020-06-02
得票数 0
回答已采纳
1
回答
Sqoop将列名写入标头
、
我将从Oracle导入一个数据表到HDFS。我需要让Sqoop将列名作为头写入导入文件(以HDFS结尾的文件)。有办法吗?我基本上需要导入文件,如下所示:1,美国帕洛阿尔托3,美国,桑尼维尔1,美国帕洛阿尔托3,美国,桑尼维尔
浏览 3
提问于2014-10-02
得票数 2
回答已采纳
2
回答
SparkSQL到底是什么?
、
、
、
或者是某种技术允许您连接到SQL数据库并使用
Spark
查询它?在这种情况下,这里的火花有什么意义--为什么不直接使用SQL?还是您可以将结构化SQL数据与平面数据结合使用?
浏览 0
提问于2016-01-18
得票数 3
回答已采纳
2
回答
如何在Cloud Dataproc上安装Apache
Spark
的自定义版本
、
、
如何在安装自定义版本的
Spark
的同时保持与Cloud Dataproc工具的兼容性?
浏览 3
提问于2018-04-12
得票数 3
1
回答
如何使用python对数千行数据执行ETL?
、
、
、
、
我有一个pgAdmin数据库,它在geojson format.Using中包含数百万行,这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据,所以我必须这样查询:jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g
浏览 4
提问于2020-04-10
得票数 0
1
回答
Spark
Dataframe在性能上如何优于Pandas Dataframe?
、
、
、
、
谁能解释一下为什么
Spark
Dataframe在执行时间上比Pandas Dataframes更好。datetime.now() 输出为如果我使用带有10个工作节点的
Spark
浏览 0
提问于2019-04-30
得票数 3
2
回答
为什么我们有
Spark
?
、
谁能提供一些指导,为什么我们要使用Hadoop,而现在
Spark
是可用的?众所周知,
Spark
最初是为了解决Hadoop的局限性而创建的? 谢谢。
浏览 24
提问于2020-05-26
得票数 0
回答已采纳
1
回答
为什么
spark
需要本地或独立模式下的hadoop库?
、
、
我下载了
spark
-2.4.0-bin-without-hadoop.tgz包并安装在我的系统中。Configuration谷歌之后,我发现
SPARK
_DIST_CLASSPATH需要设置为
SPARK
_DIST_CLASSPATH。我想知道为什么需要hadoop库在独立或本地模式下运行
spark
。
浏览 0
提问于2018-12-28
得票数 1
1
回答
将
Spark
处理的中间数据复制到目标S3时出现的AWS性能问题
目前我正在使用AWS电子病历进行
数据处理
。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中,以便客户运行Analytics。
Spark
创建了一个用于
数据处理
的中间文件夹,我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。
spark
.conf.set('
spark
.sql.sources.partitionOverwriteMode', 'dynamic
浏览 2
提问于2020-10-04
得票数 0
2
回答
DataSet javaRDD()性能
、
、
、
、
我正在使用
Spark
SQL从
Spark
应用程序的Cassandra中检索数据。数据以DataSet的形式检索。但是,我需要使用javaRDD()函数将此dataset转换为JavaRDD。
浏览 1
提问于2017-08-19
得票数 0
1
回答
PC上的大量数据?
、
、
我能用
spark
来做这个吗?有什么建议可以在我的电脑上处理吗? 谢谢
浏览 11
提问于2019-10-23
得票数 0
1
回答
:它是为了激发sql还是火花流?
、
、
、
星星之火的概念是否进入了
spark
或
Spark
。传统上,数据访问似乎属于
Spark
。但是,纠正我的错误,
数据处理
似乎也能够处理实时数据,所以我进入了这个问题。
浏览 2
提问于2017-06-29
得票数 0
回答已采纳
2
回答
pyspark和
spark
之间的记忆差异?
、
、
我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD,然后我使用flatMap操作将二进制
数据处理
成一堆行。所以我打开了
spark
-shell和PySpark,并使用默认设置运行了REPL/shell中的命令,唯一的附加参数是--master yarn.
spark
-shell版本可以工作,而PySpark版本显示了相同的运行PySpark有那么
大
的开销吗?或者这是binaryFiles是新的问题吗?我使用的是
Spark
版本2.2.0.2.6.4.0-91。
浏览 1
提问于2018-08-11
得票数 0
1
回答
DC/OS上的Mesos主配置
、
、
我正在为运行Kafka->
Spark
->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3
大
型实例。
浏览 3
提问于2016-05-17
得票数 2
回答已采纳
1
回答
防止火花放电使用内存会话/停靠器
我们正在调查使用星火作为大
数据处理
框架
,在Azure Synapse分析与笔记本电脑。我尝试了以下几点:
spark
= SparkSession \ .master("local[1]") \ .getOrCreate() 当检查
spark
对象时,它
浏览 2
提问于2022-07-31
得票数 0
回答已采纳
1
回答
我 想好好学精通一门技术,大家用的走过的路,帮我指点指点呗 让我少走了弯路和坑的苦 ?
自学,自己摸索 白白浪费大把时光 二是,降低他人的学习成本。 三是,别人对自己学习结果的审核。
浏览 299
提问于2020-09-25
1
回答
如果性能比皮肤更重要,我应该用Flex4/
Spark
编写一个新的应用程序吗?
、
、
我曾经广泛地使用过MX和
Spark
框架
,这两个
框架
对我来说都很好。我即将在Flex中启动一个非常
大
的项目,其中速度和文件大小将是关键因素。我不打算使用Adobe Catalyst。有什么理由我应该在这个应用程序中使用
Spark
而不是MX吗?
浏览 2
提问于2011-09-22
得票数 1
回答已采纳
1
回答
火花可以用于实时交互应用吗?
、
我正在考虑将现有的批处理
数据处理
层迁移到
Spark
,但我不太确定UI应用程序层。所以我的问题是:如有任何建议,将不胜感激。
浏览 1
提问于2020-09-09
得票数 3
1
回答
读取Avro文件,一次一行。Python
、
上下文:我想把Avro文件读入
Spark
作为RDD。我想知道,如果我可以访问Avro数据模式,是否可以一次解析一行Avro文件。 我正在使用pyspark来编写我的
spark
作业。
浏览 1
提问于2015-12-12
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark计算引擎:Spark数据处理模式详解
Waterdrop帮你快速玩转Spark数据处理
大数据Spark框架:Spark生态圈入门
大数据框架之从Hadoop到Spark详解
大数据处理框架是怎样的原理
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券