腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
我可以将pandas
数据
帧转换为
spark
rdd吗?
c)需要使用
spark
将PD_DF写到HDFS。我该怎么做呢?
浏览 0
提问于2015-04-15
得票数 4
3
回答
我们应该什么时候使用
Spark
-sql,什么时候使用
Spark
RDD
、
、
、
在哪种场景下,我们应该更倾向于使用
spark
RDD来编写解决方案,在哪种场景下,我们应该
选择
使用
spark
-sql。我知道
spark
-sql提供了更好的性能,它对结构和半结构
数据
的处理效果最好。但是,在
选择
spark
Rdd和
spark
-sql时,我们还需要考虑哪些因素。
浏览 1
提问于2020-05-29
得票数 0
1
回答
连接到tableau中的
spark
数据
框
、
、
、
我们试图通过
spark
SQL连接在tableau中生成报告,但我发现我们最终连接到了hive meta-store。 如果是这样的话,这种新的
spark
SQL连接有什么优势呢?有没有一种方法可以使用
spark
SQL从tableau连接到持久的
spark
数据
帧。
浏览 0
提问于2016-02-05
得票数 0
1
回答
Spark
.load()是否将所有
数据
都放入DF,然后执行字段(“.select”)?
、
、
我读到
Spark
retrieve only retrieve,但是我如何使用Scala来检查呢?我正在使用Scala将
数据
从ES索引加载到
Spark
DF。如果我使用以下命令,则只需
选择
所需的字段: val indexData = sparkSession.read .option("scroll.limit",100000) .select("country")
sp
浏览 30
提问于2021-10-06
得票数 1
回答已采纳
1
回答
Spark
over Yarn -不正确的应用程序主控
选择
、
、
executor-memory 2g \ lib/myapp.jar \ 当我查看Web UI以了解幕后到底发生了什么时,我注意到YARN作为应用程序主节点
选择
了一个不是
Spark
Master的节点。这是一个问题,因为实际的
Spark
Master节点强制参与分布式计算,导致不必要的
数据
网络传输(当然,因为
Spark
master一开始没有
数据
)。根据我在测试中看到的,Yarn以一种完全随机的方式
选择
浏览 2
提问于2015-02-04
得票数 2
1
回答
星星之火sql SQLContext
、
、
、
我试图通过SQLContext.sql在
Spark
应用程序中从MSSQL
数据
库中
选择
数据
。连接可以工作,但我无法从表中
选择
数据
,因为它总是在表名上失败。找到 // https://mvnrepository.com/artifact/org.apache.
spark
/
spark
-core_2.11 libraryDependencies+= "org.ap
浏览 0
提问于2017-07-13
得票数 1
回答已采纳
1
回答
Spark
+ HAWQ集成(HDP 2.4.2)
、
、
、
我正在使用HDP 2.4.2,我想连接星火与HAWQ的
数据
摄取。 如果有任何推荐的/正确的方法,请让我知道,目前我正在使用母版jdbc驱动程序来连接星火和HAWQ。
浏览 2
提问于2016-10-18
得票数 1
回答已采纳
1
回答
BigQuery存储应用编程接口:从
Spark
Pandas UDF使用客户端的最佳实践?
、
、
我有一个
spark
脚本,需要为每一行进行60个api调用。目前,我使用BigQuery作为
数据
仓库。我想知道是否有一种方法可以使用BigQuery API或BigQuery Storage API从我的udf中查询
数据
库?也许是一种执行批量查询的方法?pandas-gbq会是一个更好的解决方案吗?抱歉,如果代码没有为这个用例正确完成,我是
spark
和BigQuery的新手。
浏览 9
提问于2019-12-12
得票数 1
1
回答
Spark
二进制
数据
源与sc.binaryFiles
、
、
、
Spark
3.0支持使用新的data source读取二进制
数据
val df =
spark
.read.format(“binaryFile”).load("/path/to/data") 使用以前的
spark
版本,您可以使用以下方式云加载
数据
: val rdd = sc.binaryFiles("/path/to/data") 除了可以
选择
使用High-Level API (Data
浏览 75
提问于2020-06-26
得票数 1
2
回答
Flex 4标签和
选择
、
、
、
、
我在
spark
标签中显示
数据
。现在我发现用户无法
选择
和复制显示的文本。文档没有显示需要做什么(mx.Label允许这样做,但
spark
标签不这样做)。 那么解决方案是什么呢?如何允许用户
选择
和复制显示在我的屏幕上的
数据
?
浏览 2
提问于2011-02-01
得票数 8
1
回答
在
Spark
Structured Streaming中未从S3提取新
数据
、
、
我正在尝试从
Spark
Structured Streaming中的S3存储桶中读取
数据
。下面的代码用于获取现有
数据
。但是,当新
数据
添加到存储桶中时,
Spark
不会
选择
这一点。val lines =
spark
.readStream.schema(schemaImp).format("com.databricks.
spark
.avro").load("s3n://bucketlines.writeStr
浏览 0
提问于2016-12-10
得票数 3
1
回答
缓存查询性能火花
、
星星之火将如何索引
数据
。星火文件说:
Spark
可以通过调用
spark
.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中的列格式来缓存表。然后,
Spark
将只扫描所需的列,并将自动调整压缩,以尽量减少内存使用和GC压力。您可以调用
spark
.catalog.uncacheTable("tableName")从内存中删除表。我没有完全理解上面的语句,如果有人详细解释下面的语句,或者它如何优化大型缓存<em
浏览 8
提问于2017-08-14
得票数 2
1
回答
如何使火花放电和SparkSQL在星火上执行蜂巢?
、
、
、
、
通过使用
spark
-shell / pyspark,我还遵循并实现了创建Hive表,加载
数据
,然后正确
选择
。|
spark
.master| yarn| >>>
spark
.sql("set
s
浏览 0
提问于2020-02-23
得票数 0
回答已采纳
1
回答
Python中可用的
Spark
数据
集?
、
,声明如下: python中有
数据
集吗?
浏览 6
提问于2022-09-24
得票数 0
回答已采纳
1
回答
将循环的输出写入
数据
帧
、
、
、
FYI只将
数据
转换为数组,因为AFAIK
spark
数据
only不能被迭代。def getRows (ca : org.apache.
spark
.sql.DataFrame ) = val allca = List()
spark
浏览 1
提问于2017-11-02
得票数 1
回答已采纳
2
回答
SparkSQL查询
数据
帧
、
、
、
、
我将一个熊猫
数据
帧转换成
spark
sql表。我是SQL的新手,想从表中
选择
关键的'code‘。.|from pyspark.sql import SQLContext .builder
浏览 13
提问于2020-01-29
得票数 0
回答已采纳
2
回答
使用bucketBy的星火模式与Hive不兼容
、
、
我正在使用SparkVersion2.3编写和保存使用bucketBy的
数据
文件。 .sortBy("col2") .saveAsTable('EMP.bucketed_table1')) 将存储的
数据
源表emp.bucketed_table1以
Spark
特定格式持
浏览 0
提问于2018-09-05
得票数 4
回答已采纳
2
回答
Spark
连接Hive到HDFS vs
Spark
直接连接HDFS,Hive在上面吗?
、
、
、
、
问题摘要:当然,我希望使用配置单元上下文将
数据
馈送到HDFS。定义了模式,并按批或按行馈送
数据
。 还有另一种
选择
。我们可以直接将
数据
写入HDFS,这要归功于
spark
stre
浏览 0
提问于2019-06-19
得票数 1
1
回答
在
spark
中处理json文件
、
、
在
spark
-scala中,我需要使用嵌套结构的json文件来创建
数据
帧我有一个具有复杂嵌套结构的json输入。我不能使用withcolumn函数并应用默认值,因为如果键出现在某一天,相应的值应该是我
选择
的taken.if,它无法解决错误,因为键可能在任何一天都不存在。请告诉我任何解决方案
浏览 1
提问于2019-10-01
得票数 0
1
回答
HadoopSpark2.4的最佳版本
、
我是大
数据
(
Spark
)的初学者,现在我已经安装了
spark
2.4,所以我想知道应该
选择
哪个最好的版本。
浏览 0
提问于2018-12-18
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据之谜Spark基础篇,我们为什么选择Spark技术
大数据有道之spark选择去重
走进大数据 Spark-Spark streaming
Spark计算引擎:Spark数据处理模式详解
大数据Spark框架:Spark生态圈入门
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券