在Spark Scala中创建数组(种子)

、、、

如何在Scala中创建随机种子数组？我想要一个随机数组，但这个随机数组在整个函数中必须是相同的。例如，使用scala.util，我们可以这样做但是，arr1在该过程中每次都会发生变化。因为我们在Scala中也有种子，

浏览 1提问于2016-07-08得票数 0

1回答

使用字节数组创建火花DataSet时出错

、、

我正在使用case类和spark.sql({query}).as[MyCaseClass]语法在scala中创建Spark .as[HbaseRow] 通常情况下，这很好，但是对于字节数组，这是失败的。$$arrayClassFor$1.apply(ScalaReflection.scala:1

浏览 1提问于2018-11-26得票数 1

回答已采纳

1回答

Scala Spark示例和SampleBy的相同行为

、、、

我试图在Spark Dataframe中执行分层采样，但sampleBy函数的行为(奇怪地)类似于sample。Spark版本3.0.1 val data = Seq( ("Java", 20000), ("Java", 10000), ("Java", 30003000), ("Scala", 4000), ("Scala&qu

浏览 27提问于2021-02-17得票数 3

1回答

apache火花理解密集向量

、

在每个向量中只有3个元素的情况下，定义稠密向量有什么帮助。为什么我们不能把它们当作向量呢？

浏览 2提问于2016-04-10得票数 0

回答已采纳

1回答

如何创建countVectorizer模型的一个列中包含值数组的火花数据

、、

55405| us|+--------------+--------+-------+ 我试图从这3列输入数据创

浏览 1提问于2017-09-05得票数 0

回答已采纳

4回答

火花-随机数产生

、、、

我的代码遵循以下格式：val M = 3val rand = new scala.util.Random我还尝试用java.util.Random (scala.util.Random v10不扩展Serializable)生成方法中的数字，如下所示，但在每个for循环中仍然得到相同的数字 val r =

浏览 3提问于2016-04-06得票数 13

回答已采纳

1回答

我无法弄清楚，正确的实现编码器创建数据集从下面的RDD？DataSet<Integer> ds = sqlContext.createDataset(rdd.rdd(),Encoders.bean(Integer[].class)); 线程"main“中的异常:断言在org.apache.spark.sql.catalyst.encoders.ExpressionEncoder$.javaBean(ExpressionEncoder.scala:90) atorg.apache.<

浏览 0提问于2017-09-19得票数 6

1回答

Scala MurmurHash3库与Spark Hash函数不匹配

、

Scala MurmurHash3库不匹配Spark Hash函数scala和spark使用相同的Murmur hash3实现，但结果不同。有什么想法吗？

浏览 0提问于2020-07-27得票数 1

2回答

如何将双倍数组转换为RDD[String]

、、

testDensities: Array[Array[Double]] = Array(Array(1.1, 1.2), Array(2.1, 2.2), Array(3.1, 3.2)) .map { x => x.toArray }这段代码甚至觉得不正确，第二个map调用应该映射数组中的每个元素

浏览 6提问于2017-03-24得票数 3

回答已采纳

2回答

Spark中联接操作后模式顺序的更改(JAVA)

、、、

我使用的是Spark和Java，当我在两个dataframe之间进行连接时，模式的顺序是不同的。我需要保留顺序，因为我想在后面的HBase表中插入数据。在Scala中有一个使用seq列表的解决方案，我想知道如何使用Java来实现它？

浏览 1提问于2017-01-24得票数 3

回答已采纳

2回答

如何在星火2中产生N秒差的随机时间戳？

、

我试图解决以下问题：但是，所有时间戳都等于某些特定值看起来只生成了一个随机数，然后在整个列中传播。我该如何解决这个问题？

浏览 1提问于2018-02-10得票数 0

回答已采纳

2回答

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

、、、

给定Spark 2.4和scala 2.11中的代码 val df = spark.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式，我会看到spark自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: string (containsNull =

浏览 30提问于2020-01-21得票数 3

1回答

Deeplearning:向掩码数组添加值时出错

、、、

在深度学习中，当我们有不同长度的特征时，需要填充和掩蔽。我正在开发一个使用RNN算法的情感分析程序。在我的程序中，我试图将值添加到我创建的掩码数组中。但是它给出了以下错误。(Iterator.scala:1157) at org.apach

浏览 0提问于2016-03-14得票数 0

回答已采纳

2回答

将Array[string]类型的两列合并为新的Array[string]列

、、、

我在Spark DataFrame中有两列，每一列中的每个条目都是字符串数组。curious", "bought", "20"), Seq("iwa", "was", "asj"))我希望合并每一行中的数组concatFrame = ngramDataFra

浏览 1提问于2018-03-07得票数 9

回答已采纳

1回答

火花与卡桑德拉并行处理

、

用户在执行submit命令时提供一组配置文件的IP地址。val ips = Array(1,2,3,4,5)编辑的线程"main“中的异常:在org.apache.spark.util.ClosureCleaner$.ensureSerializabl

浏览 4提问于2016-04-21得票数 0

2回答

有没有可能使用pyspark来加速对一个非常大的数组的每一列的回归分析？

、

我有一个非常大的数组。我想对数组的每一列进行线性回归。为了加快计算速度，我创建了一个列表，将数组的每一列作为其元素。然后，我使用pyspark创建了一个RDD，并在其上进一步应用了一个已定义的函数。我在创建RDD (即并行化)时遇到了内存问题。我试图通过设置spark.driver.memory -defaults.conf将spark改进为50g，但程序似乎仍然死了。$1.apply$mcV$sp(Inbox.scala<

浏览 4提问于2019-06-18得票数 1

1回答

如何设置火花源初始中心

、、、、

我用Spark来运行Kmeans。我有大量的数据和三个现有的中心，例如，三个中心是：[1.0,1.0,1.0],[5.0,5.0,5.0],[9.0,9.0,9.0].我看到Kmean对象有种子参数，但是种子参数是一个长类型而不是数组。那么，我如何告诉Spark只使用现有的中心进行聚类。或者说，我不明白种子在星火中意味着什么，我认为种子应该是一个向量数组，它在运行聚类之前代表指定的中心。

浏览 0提问于2017-04-18得票数 3

回答已采纳

2回答

通过内部数组的索引高效地连接数组的数组RDD

、、

我正在使用Databricks运行一个使用Scala (v2.12)的Spark集群(v3.0.1)。我将Scala文件编译为JAR，并使用Databricks UI中的spark-submit运行作业。该程序的逻辑首先创建一个随机种子列表，并使用下面的代码行将其并行化： val myListRdd = sc.parallelize(myList, partitions) 接下来，我希望在这个RDD上运行一个处理函数因此，在Scala

浏览 23提问于2021-02-12得票数 1

回答已采纳

1回答

在Apache Spark* 2.1.0中使用Except on DataFrame*

、、

except能在Spark DataFrames上正常工作吗？为什么tail1仍然包含"a“而去掉了"b”？scala> val row1 = grfDF.limit(1) row1: org.apache.spark.sql.Dat

浏览 2提问于2017-04-19得票数 0

1回答

基于种子的球员匹配算法

、、

我目前正在研究一种算法，它将为随机生成的板创建一个种子。种子是使用时间戳创建的。如果没有带有时间戳的当前种子，我们在DB中创建一个新条目，我们说当前的播放器正在使用该种子。种子只能由一定数量的用户播放，如果当前种子已满，我们将创建一个新的种子。现在，让我们说它只能玩4次。玩家不能使用相同的种子，所以我检查当前的玩家是否已经打

浏览 4提问于2018-03-27得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用字节数组创建火花DataSet时出错

Scala Spark示例和SampleBy的相同行为

apache火花理解密集向量

如何创建countVectorizer模型的一个列中包含值数组的火花数据

火花-随机数产生

使用编码器创建数据集，其中行是数组类型

Scala MurmurHash3库与Spark Hash函数不匹配

如何将双倍数组转换为RDD[String]

Spark中联接操作后模式顺序的更改(JAVA)

如何在星火2中产生N秒差的随机时间戳？

如何在Spark* (2.4) SQL -Scala2.11中避免ArrayType的自动转换*

Deeplearning:向掩码数组添加值时出错

将Array[string]类型的两列合并为新的Array[string]列

火花与卡桑德拉并行处理

有没有可能使用pyspark来加速对一个非常大的数组的每一列的回归分析？

如何设置火花源初始中心

通过内部数组的索引高效地连接数组的数组RDD

在Apache Spark* 2.1.0中使用Except on DataFrame*

基于种子的球员匹配算法

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐