Spark Scala窗口将结果扩展到结束

、、

我将根据初始数据帧和我想要实现的数据帧来暴露我的问题： val df_997 = Seq [(Int, Int, Int, Int)]((1,1,7,10),(1,10,4,300),(1,3,14,5025| 30| 40|| 2| 25| 30| 40| 4| +--------+-------+---+-------+--

浏览 15提问于2019-09-27得票数 2

1回答

火花-卡桑德拉-连接器2.0.2的sbt未解决依赖关系

、、、、

build.sbt：libraryDependencies += "org.apache.spark" %% "spark-sql" % sparkVersion % &quo

浏览 3提问于2017-06-09得票数 0

回答已采纳

1回答

使用maven构建Apache Spark 1.4 :停止构建，不会出现错误

、、

我正在尝试用maven构建Apache Spark 1.4.0，构建永远不会结束；它冻结了，没有显示任何错误。我不知道为什么，但它冻结在这一行：我尝试更新scala (2.11.4)和Maven (3.0.5)，结果都是一样的。

浏览 0提问于2015-06-25得票数 0

1回答

Apache火花- ReducedWindowedDStream尚未初始化

、

我故意在5分钟后结束这项工作，并重新开始测试恢复情况。一旦调用ssc.start()，我将收到此错误。receivedBlockMetadataException in thread "main" org.apache.spark.SparkException: org.apache.spark.streaming.dstream.ReducedWindowedDStream@65600fb3 has

浏览 5提问于2015-07-12得票数 2

5回答

如何使用nohup从文件中执行spark-shell？

我有一个scala脚本文件，它以一种经典的方式通过交互式spark-shell成功执行:输入spark-shell，粘贴脚本，等待完成。我希望能够让它继续工作，并退出ssh会话，在需要的时候返回结果。我试过了，它的行为很奇怪它只将几行通常的spark输出打印到out.log，然后报告进程已经结束。当我执行“ps aux | gre

浏览 1提问于2015-09-07得票数 3

1回答

Spark窗口函数"rowsBetween“应该只考虑完整的行集

、

我使用"rowsBetween“窗口函数来计算移动中位数，如下所示var rawdataFiltered = rawdata.withColumn(但我需要排除在开始和接近结束时没有当前行前面或后面50行的所有行。org.apache.spark.sql.Row): Unit = { var bufferVal=buffer.getAs[scala.collection.mutable.WrappedArray, buffer2: org.apache

浏览 3提问于2019-05-19得票数 0

1回答

在完成任务时在SQLListener.onTaskEnd上启动NullPointerException

、、、

我有一个使用Scala的Spark应用程序，它执行一系列转换，然后将结果写到parquet文件中。在挂起大约一个小时(消耗资源和vcore)之后，它要么结束，要么抛出一个错误并自行终止。 at org.

浏览 0提问于2016-08-24得票数 0

1回答

Spark Structured streaming -使用模式从文件读取时间戳

、

我正在尝试编写一个作业，将所有设备发送的值聚合(和)到1分钟的滚动窗口中。我遇到的问题是时间戳。当我试图将"timestamp“解析为Long时，窗口函数抱怨它需要"timestamp type”。@3eeac696 (of class org.apache.spark.sql.types.TimestampType) scala.MatchError: org.apache.spark.sql.types.TimestampType(RowEnc

浏览 16提问于2021-04-19得票数 0

回答已采纳

1回答

Spark抛出UTF8字符串转换错误

、

Spark窗口函数似乎不能正常工作。我看到在原始数据中有一些记录具有相同的data_rfe_id和相同的seq_id，因此，我使用row_number函数使用窗口函数来过滤row_num === 1的记录。我只想使用窗口功能来实现这一点。在对dataframe应用窗口功能之前，是否需要重新洗牌？当我在Spark中运行上面的代码时，我得到了正确的结果。

浏览 2提问于2017-10-01得票数 5

1回答

在Scala中使用reduceByKeyAndWindow()对流的滑动窗口进行操作

、、、

我正在使用Scala编写一个Spark流媒体应用程序，我的目标是通过每秒读取Twitter提要来计算60秒窗口内转发次数最多的状态。我在概念上想要的是在滑动窗口结束时获得状态的转发次数，并从其开始时的等效数量中减去它，以便找到no。窗口内的转发数量。}.reduceByKeyAndWindow(*function*, Seconds(60), Seconds(1)) 所以，我的问题是，我应该在这里使用什么函数来实现预期的结果，即获得getRetweetCount()在<

浏览 2提问于2015-10-06得票数 1

1回答

如何在spark scala或pyspark中清理JVM堆内存

、、、、

如何在spark scala流应用程序中清理JVM占用的内存。我正在运行60秒时间间隔的流式作业。在我的前六个小时，没有问题，在那之后，我面对的是JVM堆内存问题。有没有办法在spark scala中以编程方式清理我的GC或JVM内存？在我的应用程序中，我使用了Dataframe，registertemptable也结束了我的程序，我将结果写入到HDFS中。目前在我的应用程序spark SQL上下文级，我正在取消缓存，像这样我们有没有其他方法可以释放

浏览 1提问于2017-09-16得票数 2

2回答

如何使用DataFrame窗口表达式和withColumn而不改变分区？

、、

由于某些原因，我必须将RDD转换为DataFrame，然后再对DataFrame执行一些操作。有没有更干净的解决方案？val rdd = sc.parallelize(List(1,3,2,4,5,6,7,8),4)println(partition + "rdd") va

浏览 100提问于2017-06-06得票数 1

回答已采纳

1回答

Apache Spark SQL中的moving median as a window function (UDAF)

、、

我正在尝试将"moving median“函数实现为一个窗口函数，以便在Apache Spark SQL中使用它。结果是： Failure(org.apache.sp

浏览 2提问于2016-06-06得票数 2

1回答

如何将spark示例编译并构建到jar中？

、、、

因此，我正在编辑MovieLensALS.scala，我只想用修改后的MovieLensALS.scala重新编译示例jar。我使用的是build/mvn -pl :spark-examples_2.10 compile，然后是build/mvn -pl :spark-examples_2.10 package，它可以正常结束我已经设置好SPARK_PREPEND_CLASSES=1了。但是，当我使用bin/spark-submit --c

浏览 3提问于2017-03-01得票数 1

回答已采纳

1回答

Spark-Scala在文本文件中写入输出

、

我正在执行spark中的wordcount程序，并试图将结果存储在一个文本文件中。Loading /opt/spark-2.0.2-bin

浏览 0提问于2017-10-10得票数 0

1回答

如何在vagrant box spark安装中使用Scala？

、、、

我按照提供的说明安装了spark谢谢

浏览 3提问于2015-09-07得票数 0

1回答

向sbt程序集中添加java类

、、、

我在用scala构建一个火花罐时遇到了问题。这是一件非常简单的事情，我想通过JDBC编程地访问mysql服务器，并将它加载到星星之火数据帧中。它将打包，但在运行时，将失败 Exception in thread "main" java.sql.SQLException: No suitable driver found for jdbc:mysql/bin/spark-submit ~/path/to/scala/project/ta

浏览 4提问于2015-10-21得票数 1

回答已采纳

4回答

火花提交输出结果

、、、

我是火花和scala编程的初学者，我试着在本地模式下运行spark submit示例，它运行完整，没有任何错误或其他消息，但我看不到任何输出结果在领事或星火历史网络用户界面.Where，我如何才能看到我的程序的结果在火花这是我运行的命令 spark-submit --master local[*] --conf spark.history.fs.logDirectory=/tmp /spark-events --confspark

浏览 0提问于2018-04-26得票数 1

回答已采纳

2回答

在使用窗口函数时出现了错误(Spark2.1.0报告列不存在问题)？

、、、、

因此，我从的夜间构建中获得了一个更新的spark版本，如果您在<=2.1.0上，您可能仍然会遇到这个问题。我得到错误时，使用电火花窗口功能。name), value) 321 raise Py4JError( at org.apache.spark.rdd.RDD.iterator(RDD.<em

浏览 17提问于2017-03-24得票数 4

回答已采纳

1回答

使用JDBC将数据格式写入Postgresql时的java.lang.StackoverflowError

、、

我正在尝试将多个操作的结果写入AWS Aurora PostgreSQL集群中。所有计算都执行正确，但是，当我试图将结果写入数据库时，将得到下一个错误： at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$2.apply(TreeNod

浏览 2提问于2019-09-29得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花-卡桑德拉-连接器2.0.2的sbt未解决依赖关系

使用maven构建Apache Spark 1.4 :停止构建，不会出现错误

Apache火花- ReducedWindowedDStream尚未初始化

如何使用nohup从文件中执行spark-shell？

Spark窗口函数"rowsBetween“应该只考虑完整的行集

在完成任务时在SQLListener.onTaskEnd上启动NullPointerException

Spark Structured streaming -使用模式从文件读取时间戳

Spark抛出UTF8字符串转换错误

在Scala中使用reduceByKeyAndWindow()对流的滑动窗口进行操作

如何在spark scala或pyspark中清理JVM堆内存

如何使用DataFrame窗口表达式和withColumn而不改变分区？

Apache Spark SQL中的moving median as a window function (UDAF)

如何将spark示例编译并构建到jar中？

Spark-Scala在文本文件中写入输出

如何在vagrant box spark安装中使用Scala？

向sbt程序集中添加java类

火花提交输出结果

在使用窗口函数时出现了错误(Spark2.1.0报告列不存在问题)？

使用JDBC将数据格式写入Postgresql时的java.lang.StackoverflowError

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐