腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scala-Spark
:
Filter
DataFrame
性能
和
优化
、
到目前为止,我可以通过以下两种方法来实现: // first methodval dfTransformedOne = df.
filter
($"id".isin(dfList:_*)) // second methodval dfI
浏览 21
提问于2019-04-18
得票数 1
回答已采纳
1
回答
pyspark列中的访问名
、
、
、
、
我需要一些帮助来访问列中的名称。例如,我有以下架构: root |-- array_1: array (nullable = true) | | |-- id_2: string (nullable = true) | | | |-- value: double (nullable = true) 通
浏览 17
提问于2021-09-08
得票数 0
回答已采纳
2
回答
如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames?
、
、
、
如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames?我知道有case类可以使用,并根据cols(0)位置映射cols,但问题是我有超过22列,因此我不能使用case类,因为在case类中,我们只能使用22列。我知道有structtype来定义模式,但我觉得在structtype中定义40列的代码会非常冗长。我正在寻找一些东西,以读取到数据帧使用读取方法,但在火花,我们没有直接支持csv文件,我们需要解析它?但是,如果我们有40个以上的cols呢?
浏览 2
提问于2016-07-05
得票数 1
1
回答
spark
dataframe
到rdd的转换需要很长时间
、
、
我正在将一个社交网络的json文件读入spark。我从这些数据中得到一个数据帧,我将其分解以获得对。这个过程运行得很完美。稍后,我想将其转换为RDD (用于GraphX),但RDD的创建需要很长时间。val exploded_network = social_network. withColumn("id_follower",
浏览 1
提问于2017-03-20
得票数 3
2
回答
Spark
DataFrame
对sqlContext
、
、
为了便于比较,假设我们有一个表"T“,表中有两列"A”、"B“。我们还在一些HDFS数据库中运行了一个hiveContext。我们建立了一个数据框架:sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")df.groupBy("A").sum("B")
浏览 0
提问于2016-07-21
得票数 3
回答已采纳
1
回答
从蜂巢到地板时火花的表现
、
、
、
假设在日期分区的顶部有一个外部单元表,那么使用v/s在阅读了
dataframe
之后,将进行一系列的转换
和
聚合。火花
浏览 3
提问于2021-06-21
得票数 1
回答已采纳
1
回答
火花:星星之火中的CBO是否只适用于SPARK,还是也适用于
Dataframe
和
Dataset API?
、
Does中的基于成本的
优化
器主要问题: CBO (基于成本的
优化
器)是否仅适用于sql,还是也适用于
Dataframe
和
Dataset API?与之间的区别在于,了解以上三个主题的详细情况有助于提高
性能
?我们真的能控制
和
调整背后的内部吗?如果是,请指导如何使用并分享一些参考链接。(我发现许多解释概念的文章,但很少实际解释如何利用这些信息来提高
性能
)
浏览 0
提问于2019-11-24
得票数 0
1
回答
在加入之前,猪
优化
器是否会过滤空值?
、
、
我被pig的
性能
文档搞糊涂了,关于跨输入连接空值的问题。正如文档正确声明的那样:“来自A
和
B的空值不会被收集在一起”,因此
优化
器在连接之前对它们进行过滤是非常有意义的:B1 =
filter
B by x is not null;pig
优化
器会自动执行此操作吗?我问的原因是我们有许多
性能
问题,而根本原因就是:(
浏览 1
提问于2015-08-19
得票数 2
3
回答
Dataframe
API与Spark.sql [重复]
、
、
这个问题在这里已经有答案了: 在Spark SQL中编写SQL与使用
Dataframe
API(4个答案) 4天前就关门了。用
Dataframe
API格式而不是Spark.sql查询编写代码有什么显著的优势吗? 我想知道催化剂
优化
器是否也会对spark.sql查询起作用。
浏览 103
提问于2021-02-25
得票数 0
回答已采纳
1
回答
pyspark:计算数据帧中所有元素的总和
、
sum_all_elements_pyspark(df): return res 但是显然rdd函数比
dataframe
浏览 24
提问于2020-05-07
得票数 0
1
回答
为什么在类型化Dataset API (vs非类型化
DataFrame
API)中没有使用谓词下推?
、
、
、
我一直认为dataset/
dataframe
是相同的。唯一的区别是dataset API将为您提供编译时的安全性。对吧? playersDs.
filter
('birthYear === 1999).explain()== Physical Plan == *(1)
Filter
<
浏览 0
提问于2018-05-02
得票数 13
回答已采纳
1
回答
Swift会使用
filter
,map,reduce而不是for循环来做一些
性能
优化
吗?
Swift会使用
filter
,map,reduce而不是for循环来做一些
性能
优化
吗?也许在多线程或编译器
优化
级别,会有一些优雅的优势?我不知道,有人知道吗?谢谢
浏览 2
提问于2019-07-08
得票数 0
1
回答
Spark-scala更改
dataframe
中列的数据类型
、
、
我有一个
dataframe
,其中所有列的数据类型都是一个字符串,所以我尝试以这样的方式更新它们的数据类型: import org.apache.spark.sql.functions._ df = df.withColumn(x, col(x).cast(DoubleType)) }df.printSchema() 在
scala-spark
中是否可以更优雅、更高效地(在
性能
方面)做到这一点?
浏览 143
提问于2020-06-27
得票数 1
2
回答
当使用ORM时,我什么时候应该为了方便而牺牲
性能
?
、
、
、
、
但是,我的“勤奋程序员”经常担心
优化
和
查询的
性能
,更担心我的应用程序在这些查询方面的
性能
。方便 users = User.query.
filter
_by(some_column=True).all() # list of Userusers = session.query(User.name, User.
浏览 0
提问于2018-10-02
得票数 1
回答已采纳
2
回答
DataSet javaRDD()
性能
、
、
、
、
是否有一些参数需要调整以增强这次的
性能
?
浏览 1
提问于2017-08-19
得票数 0
1
回答
中间作业顺序
、
调用中间函数的顺序对流的
性能
有影响吗?例1)myList.stream().
filter
(Item::isGreen).distinct()...相比较 myList.stream().distinct().
filter
(Item::isGreen)...但是第二次
和
第三次我不确定什么是最好的
浏览 0
提问于2021-05-31
得票数 0
回答已采纳
2
回答
RDD对混合
DataFrame
API的UDF
性能
的影响
、
、
、
、
虽然Spark鼓励在可能的情况下使用
DataFrame
API,但如果
DataFrame
API不够,通常是选择回到RDD还是使用UDF。这两种选择之间是否存在内在的
性能
差异?RDD
和
UDF相似,因为它们都不能从催化剂
和
钨的
优化
中获益。是否还有其他开销,如果存在,这两种方法之间是否有区别?为了给出一个具体的例子,假设我有一个
DataFrame
,它包含一列具有自定义格式的文本数据(不适于regexp匹配)。我需要解析该列并添加一个新的向量列,该列包含结果标记。
浏览 2
提问于2016-08-09
得票数 9
3
回答
哪个更快spark.sql或df.
filter
("").select("")。使用scala
、
、
table.createOrReplaceTempView("table")spark.sql("SELECT column1 from TABLE where column2 = 'VALUE'")TABLE.
filter
(TABLE("column2") === "value").select(col("column1")) 那么,哪个查询要快得多,普通的spark.sql还是使用过滤器
和
选择?
浏览 1
提问于2018-09-07
得票数 3
回答已采纳
1
回答
如何将正则表达式解析为整个spark
dataframe
而不是每一列?
、
我有一个解决方案,但它是逐列进行的,我觉得它会影响大型数据集的
性能
。._ val some = df.
filter
($"$name".rlike("""^=.+\)$""")) some.count
浏览 9
提问于2019-07-26
得票数 3
回答已采纳
1
回答
弹性搜索与滤波器
优化
、
elasticsearch会自动
优化
过滤器吗?例如:在“
和
”过滤器中,如果存在为gte
和
lte运营商分别定义的多个数字范围筛选器,而不是一个同时具有lte
和
gte边界的范围筛选器,它会导致
性能
问题吗?ES会自动
优化
这些过滤器吗?"
filter
" : { { "age" : { &quo
浏览 2
提问于2015-10-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Mysql索引和性能优化
Android性能优化系列——网络和电量优化
Qt 性能优化策略和技巧
详解 Java性能优化和JVM GC
iOS性能优化——图片加载和处理
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券