腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
最新
行
保留在
groupBy
scala
spark
之后
、
1 | SPAIN|我想通过ID和DATE来
groupBy
这个dataFrame,然后只想在TIME列中保留最近的
行
: df.
groupBy
(col("ID"),col(“DATE”)).agg(min(col(“TIME”)也许它可以工作,但我有很多其他列,
浏览 12
提问于2019-10-30
得票数 2
1
回答
按聚合(求和)双进行分组在
spark
中产生不一致的结果
、
、
、
、
我在
Scala
和
Spark
2.0中看到了一些不一致的行为,它们聚集双倍,然后根据聚合值进行分组。这只发生在集群模式下,我相信这与双数相加产生一个稍微不同的数字的顺序有关。有时看到1
行
,有时根据小数点20位左右的值,看到2
行
。> val grouped = df.
groupBy
("a", "b").agg(sum("c").as("c")) grouped: org.apache.
spark
.sql.Da
浏览 3
提问于2017-03-07
得票数 0
回答已采纳
1
回答
吡火花流和实用程序导入问题
、
、
我试图运行以下代码findspark.init('/opt/
spark
')os.environ['PYSPARK_SUBMIT_ARGS'] ='--packages org.apache.
spark
:
spark
-streaming-kafka-0-8_2.11:2.3.0 pyspark-shell' import> (file:/opt/
spa
浏览 1
提问于2021-10-18
得票数 0
回答已采纳
1
回答
用农业火花和
scala
进行选择
、
、
result = \.
groupby
('time_window') \result.show() 我想让它在
scala
语言中运行,我做了这个,我得到了,我错了,我没有取消错误,因为&quo
浏览 0
提问于2017-02-27
得票数 0
2
回答
为什么隐式类中的函数不可用?
、
我正在尝试教自己
Scala
,并使用IntelliJ的想法作为我的IDE。我已经启动IntelliJ的shell,运行console,然后输入以下内容:import org.apache.
spark
.sql(new SparkConf().setMaster("local[*]")).enableHiveSupport().getOrCreate()val, asAt)) 它在最后一<
浏览 1
提问于2018-05-22
得票数 1
回答已采纳
1
回答
如何在执行DataFrame操作后从
spark
GroupBy
列收集字符串列表?
、
、
如果列有一个字符串列表而不是一个字符串,而我想在
GroupBy
(其他列)
之后
将
所有这样的列表收集到一个列表中呢?我正在使用
Spark
1.6并尝试使用 线程"main“org.apache.
spark
.sql.AnalysisException中的异常:未定义函数collect_list;at org.apache.<em
浏览 2
提问于2016-02-10
得票数 5
回答已采纳
2
回答
SparkSQL -在联接和
groupBy
之后
获得重复
行
、
、
注意:列uid不是,而不是唯一的键,并且在dataframes中有重复的具有相同uid的
行
。val df1 =
spark
.read.parquet(args(0)).drop("sv")我认为
groupBy
操作符会像select distinct hid, pid fro
浏览 0
提问于2018-01-27
得票数 3
回答已采纳
2
回答
在
spark
Dataframe中应用
groupBy
后筛选的列的百分比
、
、
、
Spark
Dataframe包含一个包含2列的表:状态、类别。Status has values----'y' and 'n'如何在
spark
(
Scala
)中找到每个类别中状态'y‘的百分比df.
groupBy
("category").agg(count("*")) df.filter(col(
浏览 4
提问于2017-10-24
得票数 1
2
回答
如何在
scala
中聚合+ group by?
我有以下数据: val Cars_tmp = List("Cars|10|Paris|5|Type|New|3", "Cars|15|Paris|3|Type|New|5", "Cars|20|London|10|Type|New|2", "Cars|40|London|40|Type|New|1") 我想计算一下每个城市的平均汽车数量。注意: Cars_tmp.split('|')(6) =汽车数量,Cars_tmp(2).split('|')(2) =城市 我试过这个: v
浏览 23
提问于2020-10-08
得票数 0
回答已采纳
1
回答
火花例外: org.apache.
spark
.streaming.api.java.JavaStreamingContext :java.io.NotSerializableException
、
、
、
、
一旦我
将
实现更改为使用
groupBy
/函数,它就会出现可序列化的异常。(RDD.
scala
:693) at org.apache.
spark
.rdd.RDD(RDD.
scala
:358) at org.apache.
spark
.rdd.RDD.
groupBy<
浏览 8
提问于2016-09-25
得票数 2
1
回答
在
scala
中省略带有默认值的参数时获取“不正确的参数数”
、
= new SparkContext("localhost", "
GroupBy
Test", System.getenv("
SPARK
_HOME"), Seq(System.getenv("
SPARK
_EXAMPLES_JAR, appName: String, sparkHome: String, jars: Seq[String], environment:
scala
.collection.Map[String,String])
spa
浏览 3
提问于2014-01-06
得票数 2
回答已采纳
1
回答
Scala
Spark
中的
groupBy
函数需要Lzocodec吗?
、
、
org.apache.
spark
.rdd.RDD$$anonfun$
groupBy
$1.apply(RDD.
scala
:687) at org.apache.
spark
.rdd.RDDOperationScope$.withScope(RDDOperationScope.
scala
(RDD.
sc
浏览 0
提问于2018-01-31
得票数 0
5
回答
重写
scala
代码使其更加实用
我试着教自己
Scala
,同时尝试编写函数式语言的惯用代码,即编写更好、更优雅、更实用的代码。我有以下代码可以运行:import org.apache.
spark
.sql.val asAt = LocalDate.now() val dataFrames = Seq(df.featuresGroup1(
groupBy
, asAt),df.featuresGroup2(
groupBy
) => org.apache.
spark<
浏览 2
提问于2018-05-23
得票数 2
回答已采纳
1
回答
“`sbt”在添加依赖项后编译时会导致错误
、
、
、
我向built.sbt添加了以下依赖项,在终端中运行sbt run
之后
,得到了以下错误:[info] welcome to sbt 1.5.5 (Private Build Java/localorg.apache.
spark
/
spark
-streaming/3.1.2/ivys/ivy.xml [error] not found: https://repo1.maven.org/maven2/org/apache&
浏览 1
提问于2021-09-16
得票数 3
回答已采纳
2
回答
如何使用Dataset API (如SQL的“按1分组”或“按2排序”)使用序数?
、
、
我能够在
Spark
‘文字’查询中使用序数(在GROUP BY和ORDER BY
之后
的这些整数):但是对于DataFrames/DataSet,我必须始终使用列名:df.select($"ProfileN
浏览 3
提问于2017-07-19
得票数 2
回答已采纳
2
回答
在Apache
Spark
中解析/查询异构CSV数据的最佳方法?
、
但是,每一
行
的列取决于它是什么类型的
行
,由特定的列指示。高效地解析这些散布的数据的最佳方法,这样我就可以查询数据集,潜在地连接各种
行
类型。当所有行都相同时,我可以
将
CSV数据加载到结构化模式中,但是这些文件中行的异构性让我感到困惑。我考虑过我可以使用
Spark
来读取文本形式的数据,然后在“
groupBy
”列上执行某种类型的操作,这样我就可以单独解析每个组,但我还无法制定代码来做到这一点,因为DataFrames的语义似乎与标准的
Scala
集合非常不同,例如:据我所知,<
浏览 1
提问于2018-08-22
得票数 1
3
回答
什么是火花-
scala
的解决方案来对分组数据中的非键非整数列中的数据进行排序?
、
、
如果
将
product_price保持为字符串,则排序不正确。product_category_id,但在
groupBy
之后
,sortBy或orderBy无法工作。> prdDF.
groupBy
("product_category_id")
scala
> prdDF.<e
浏览 1
提问于2019-08-12
得票数 1
3
回答
如何枢轴流数据集?
、
、
有人能确认在结构化流(
Spark
2.0)中确实不支持旋转吗?$.org$apache$
spark
$sql$catalyst$analysis$UnsupportedOperationChecker$$throwError(UnsupportedOperationChecker.
scala
(UnsupportedOperationChecker.
scala
:36),org.apache.
spark
.sql.catalyst.analysis.UnsupportedOperationChecker$$anon
浏览 9
提问于2017-12-01
得票数 8
回答已采纳
1
回答
Spark
Scala
透视后多个聚合列按名称选择列
、
、
、
、
在
Scala
Spark
2.0.1中,我试图在透视
之后
聚合多个列:df: org.apache.
spark
.sql.DataFrame = [a: int, b: int ... 2 more fields]
scala
> df
浏览 3
提问于2017-01-23
得票数 3
回答已采纳
5
回答
星火升级问题:密钥未找到:_PYSPARK_DRIVER_CONN_INFO_PATH
、
下载了
最新
的
Spark
版本,因为 at org.apache.
spark
.deploy.SparkSubmit$.org$apache$
spark
$deploy$SparkSubmit$$runMain(SparkSubmit.
scala
浏览 0
提问于2018-06-15
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
大数据有道之spark筛选去重
大数据有道之spark选择去重
大数据之脚踏实地学11-Spark神器的安装
Apache Spark强势崛起
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券