如何在spark dataframe API中投影结构数组

文章/答案/技术大牛

发布

1回答

、

) |-- arr: array (nullable = true)但这只适用于选择一个结构元素

浏览 4提问于2018-02-19得票数 2

1回答

火花数据到密封特性类型

、、

我有一些数据存储在与数据模式相匹配的parquet文件和案例类中。Spark很好地处理常规产品类型，所以如果我有我可以很容易做到但据我所知，星火不处理分离类型所以当我在我的地板上有枚举时，以前编码为整数，而scala表示形式类似case object A extends E我做不到 spark.read.parquet

浏览 0提问于2018-06-19得票数 6

回答已采纳

1回答

对于一个具有>100个特性的大型数据集，我正在努力实现Spark / Pyspark上SOM批处理算法的性能版本。我有一种感觉，我可以在其中使用RDDs，在其中我可以/必须自己指定Par结晶，也可以使用Dataframe，它应该更有表现力，但我看不出在使用dataframes时如何为每个工作人员使用一个本地积累变量通过创建一个UDF将计算并行化，该UDF将观测作为输入，计算对网络的影响，并将影响发送到驱动程序中的累加器。(已经实现了这个版本，但看起来相当慢(我认为累加器更新需要很长时间)) “存储结果”将生成一

浏览 0提问于2019-02-10得票数 4

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

星火‘结构化API’是什么意思？

、

我不知道星火‘结构化API’是什么意思。如果你能更具体地告诉我，我将不胜感激。对不起，我没有完美的英语。(我得到了翻译的帮助。)

浏览 1提问于2019-06-06得票数 2

回答已采纳

1回答

为什么Apache的文档中存在"ML“与"MLLIB”的区别？

https://spark.apache.org/docs/2.2.0/mllib-feature-extraction.html#word2vec https://spark.apache.org/docs这里的"DataFrame“是什么？因为文件无法解释这一点。

浏览 0提问于2018-12-12得票数 6

回答已采纳

1回答

对SparkSQL中数组列的每个元素执行UDF (需要另一个火花作业)吗？

、、、、

浏览 4提问于2017-06-01得票数 1

回答已采纳

2回答

我们是否应该像在训练之前并行化Seq一样来并行化DataFrame

、、、、

考虑这里给出的代码， val training = sparkContext.parallelize我们是否应该继续这样做或者，当传递dataFrame

浏览 0提问于2016-06-01得票数 14

回答已采纳

3回答

斯卡拉星火中的Encoder[Row]

、、

我试图在Spark2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。

浏览 5提问于2016-09-30得票数 2

1回答

如何在snappaydata中检索存储的数组数据？

、、

我在snappydata中有样本数组数据。使用此查询插入的数据：如何检索这个存储的数组数据

浏览 3提问于2018-07-20得票数 0

2回答

Spark SQL -隐式创建模式与以编程方式创建模式的确切区别

、

我正在尝试理解隐式创建模式和以编程方式创建模式之间的确切区别，以及在什么特定场景中可以使用哪种方法。导入行API -它将再次映射到Schema字符串中使用的特定列和数据类型(类似于case类) 然后我们创建DataFrame &之后一切都是一

浏览 2提问于2016-01-31得票数 2

1回答

我们如何看待同一个函数的不同实现

、

我想了解如何在Scala中实现相同方法。def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFramedef createDataFrame(rowRDD: org.apache.spark.api.java.JavaRDD[org.apache.spark.sql.Ro

浏览 0提问于2020-07-19得票数 0

回答已采纳

5回答

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

、、、、

中的所有函数SQLContext，SparkContext，以及JavaSparkContext也在SparkSession？

浏览 216提问于2017-05-05得票数 39

回答已采纳

2回答

、、

在我的Scala/Spark应用程序中，我试图正确地使用多处理。从下面的代码中可以看到，线程数等于storage数组中的元素数。我测试了当前的代码，它可以工作。但是如您所见，storage数组中只有两个元素。在我看来，如果数组中有大量的元素，就会出现问题。在我的例子中，我不知道将来数组中会有多少个元素。Main.app: import org.apache.spark.s

浏览 3提问于2020-01-29得票数 0

2回答

如何将数据帧中的数据存储在变量中，以用作cassandra中select的参数？

、、、、

我有一个Spark结构的流媒体应用程序。应用程序从kafka接收数据，并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是，我如何使用输入数据帧(kafka)中的数据，作为cassandra中的"where“参数"select”，而不会出现以下错误： Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with streaming sour

浏览 25提问于2021-05-24得票数 0

回答已采纳

点击加载更多