嵌套JSON数组上的Spark SQL

是指在Spark SQL中对嵌套的JSON数组进行查询和分析的技术。

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，常用于表示结构化的数据。在实际应用中，经常会遇到包含嵌套JSON数组的数据，即一个JSON对象中的某个字段的值是一个数组，而数组中的元素又是JSON对象。

Spark SQL是Apache Spark中用于处理结构化数据的模块，它提供了一种类似于传统SQL的查询语言，可以对数据进行查询、转换和分析。在Spark SQL中，可以使用内置的函数和操作符来处理嵌套的JSON数组。

以下是处理嵌套JSON数组的一般步骤：

加载数据：首先，需要将包含嵌套JSON数组的数据加载到Spark SQL中。可以使用Spark SQL提供的API或者读取JSON文件的方式来加载数据。
解析JSON：使用Spark SQL的内置函数，如get_json_object、json_tuple等，可以解析JSON数据并提取嵌套数组中的字段。
展开数组：使用explode函数可以将嵌套的JSON数组展开为多行数据，每行数据对应数组中的一个元素。
查询和分析：在展开数组后，可以使用Spark SQL的查询语句对数据进行查询、过滤、聚合等操作。

下面是一个示例查询，假设有一个包含嵌套JSON数组的数据集data，其中字段array_field是一个嵌套的JSON数组：

import org.apache.spark.sql.functions._

// 加载数据
val df = spark.read.json("data.json")

// 解析JSON并展开数组
val parsedDF = df.select($"field1", explode($"array_field").as("array_element"))

// 查询和分析
val resultDF = parsedDF.select($"field1", $"array_element.field2")
                      .filter($"array_element.field3" > 10)
                      .groupBy($"field1")
                      .agg(count($"array_element.field2").as("count"))

resultDF.show()

在上述示例中，首先加载数据集data.json，然后使用explode函数展开数组，并通过select、filter、groupBy等操作对展开后的数据进行查询和分析。

对于嵌套JSON数组的处理，腾讯云提供了一系列的云计算产品和服务，如腾讯云数据仓库CDW、腾讯云数据湖DLake等，可以帮助用户在云端高效地存储、处理和分析结构化和半结构化数据。

更多关于嵌套JSON数组上的Spark SQL的详细信息，可以参考腾讯云CDW产品的介绍页面：腾讯云数据仓库CDW。

页面内容是否对你有帮助？

有帮助

没帮助

星星之火:如何将Dataset<Row>中的列名替换为新名称？

、、

我使用MongoDB作为JSON从Spark读取数据： import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Encoders; import org.apache.spark.sql.Row; .... .. Dataset<Row> ds = MongoSpark.load(jsc).toDF(); 我要把这个DF储存到蜂巢里。问题是，MongoDB中的列名之一是Timestamp，它是Hive中的一个保留字。因此，来自MongoDB的JSON数据包含一个键，名为timestamp。我需要

浏览 0提问于2018-09-18得票数 0

回答已采纳

1回答

使用json中的嵌套数据创建表并将其追加到databricks

、、、

我正在生成一系列嵌套在json中的数据，并希望将这些文件自动附加到databricks中的一个表中。我没有她的图式。这些数据将存储到azure存储中。 %python # !/usr/bin/python # -*- coding: utf-8 -*- from pyspark.sql import SparkSession from pyspark.sql.functions import * import sys import json import os import pandas as pd def create_table(): qry = """

浏览 22提问于2020-02-18得票数 1

1回答

如何从拼花文件中读取和写入自定义类

、、、、

我试图使用DataFrame/datasets为某个类类型编写一个parquet读/写类类模式： class A { long count; List<B> listOfValues; } class B { String id; long count; } 代码： String path = "some path"; List<A> entries = somerandomAentries(); JavaRDD<A> rdd = sc.parallelize(entries, 1); DataFrame d

浏览 3提问于2016-10-14得票数 1

回答已采纳

1回答

用嵌套用户定义的对象创建DataFrame

、、、、

我正在使用MongoDB连接器来读取具有嵌入式文档的集合。 JSON收藏: PersonaMetaData { "user_id" : NumberLong(2), "persona_created" : true, "persona_createdAt" : ISODate("2016-02-24T06:41:49.761Z"), "persona" : [{"persona_type" : 1, "created_using_alg

浏览 6提问于2016-03-14得票数 2

回答已采纳

1回答

Spark 2.1 -类SpecificUnsafeProjection的常量池已超过64KB的JVM限制

、、

请原谅我的无知，因为我对pyspark和Spark还不熟悉。我正在将Spark从1.6.3升级到2.1，在使用pyspark运行我们的模型时遇到了问题。在运行抛出错误的python脚本时，我们所要做的就是读入一个JSON，并使用如下所示将其转换为DF df_read = sparkSession.read.json('path to json file') 在这个读取之后，我们在DF上执行一些操作，在列上运行一些UDF，然后最终希望写回JSON，然后JSON将被提取并写入Apache Phoenix表。当尝试在DF上执行任何终端操作时，例如show()或take()或任何类

浏览 8提问于2018-12-04得票数 0

1回答

用case类从JSON数据生成类型化转换时出错

、、、、

我正试图为案例类Person创建强类型数据集。这是我现在的代码： import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession import scala.collection.mutable.ArrayBuffer import org.apache.spark.sql.types._ case class Person(name: String,phone: String,address :Map[String, String]) val schema = ArrayBuffer[StructFiel

浏览 1提问于2018-03-11得票数 1

回答已采纳

1回答

如何在星火中使用from_json()数据？

、、

我正在尝试从Databricks 3.5 (Spark2.2.1)中的dataframe中的json字符串创建一个数据集。在'jsonSchema‘下面的代码块中，有一个StructType，它具有正确的json-字符串布局，它位于dataframe的'body’列中。 val newDF = oldDF.select(from_json($"body".cast("string"), jsonSchema)) 这将返回根对象所在的数据格式。 jsontostructs(CAST(body AS STRING)):struct 后面跟着模式中的字

浏览 0提问于2018-10-23得票数 0

回答已采纳

1回答

spark sql嵌套JSON，文件名编号为ParseException

、

我在我的Kafka主题中嵌套了JSON，我使用spark streaming使用该主题。 {"x“：{ "y”："CLASSIC"，"z“：{ "100”：{ "user“：0.0，"AA”：0，"BB“：0，"CC”：2}} 当我尝试输入(s“select x.y.z.1000.user from $tableInMemory”)时，我正在设置: org.apache.spark.sql.catalyst.parser.ParseException:外部输入'.100‘spark.sql {，'(

浏览 0提问于2018-04-08得票数 0

1回答

spark_expect_jobj_class中的CSV文件创建错误

、、

我想要创建CSV文件。在运行Spark代码时，它会出现一个错误。 sc <- spark_connect(master = "local", config = conf, version = '2.2.0') sample_tbl <- spark_read_json(sc,name="example",path="example.json", header = TRUE, memory = FALSE, overwrite = TRUE) sdf_sche

浏览 0提问于2018-09-10得票数 1

1回答

Spark处理具有数百列的json数据

、、、

我正在为scala在本地模式下的Spark应用程序做一个POC。我需要处理一个json数据集，它有300列，但只有很少的记录。我们使用的是Spark SQL，我们的程序对于数据集中的30 - 40列运行得非常好。我们在Where子句中使用Spark SQL和其他条件进行内部连接和外部连接。问题是SQL没有为300列连接执行，它只是卡住了。不确定如何分析SQL。这个问题有没有解决方案，而不必在分布式模式下运行？在dfs上做inner join可以缓解这个问题吗？就像这样，df1.join(df2，col("id1") == col("id2")，“==”)。谢谢

浏览 0提问于2019-11-05得票数 0

1回答

如何将JSON模式从Camel大小写转换为小写

、、、

我有一个在camel情况下带有键的JSON，并且我正在尝试将所有数据类型转换为小写。我正面临着ArrayType的问题。 import org.apache.spark.sql.types.{ArrayType, IntegerType, StringType, StructField, StructType} import org.apache.spark.sql.types.{DataType, StructType} import spark.implicits._ val spark: SparkSession = SparkSession.builder().enableH

浏览 5提问于2021-12-26得票数 1

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

用于嵌套JSON的scala中的Case类

、

SCALA 我的嵌套JSON如下所示。 {"event":"movie","on":"bollywood","reldate":"2019-06-01T18:20:00.560Z","data":{"id":"4965-81dc-4ef","location":{"ratioin":52.48077,"ratioout":13.42499,"reldate":"2019-06-01

浏览 1提问于2019-07-02得票数 0

回答已采纳

1回答

将json -tables从json输出转换为PySpark数据帧

、、

我正在尝试将aws glue get-tables命令的json输出转换为PySpark数据帧。使用以下命令读取json输出后： df = spark.read.option("inferSchema", "true") \ .option("multiline", "true") \ .json("tmp/my_json.json") 我从printSchema得到了以下内容： root |-- TableList: array (nullable = true) | |-- el

浏览 15提问于2021-11-04得票数 0

回答已采纳

2回答

在嵌套的XML文件火花scala中找到特定元素

、、

浏览 6提问于2017-07-05得票数 0

回答已采纳

2回答

scala.MatchError:在Dataframes

、、、、

我有一个Spark (version 1.3.1)应用程序。在其中，我试图将一个Java bean RDD JavaRDD<Message>转换为Dataframe，它有许多不同数据类型的字段(整数、字符串、列表、地图、双数据)。但是当我在执行我的代码的时候。 messages.foreachRDD(new Function2<JavaRDD<Message>,Time,Void>(){ @Override public Void call(JavaRDD<Message> arg0, Time

浏览 6提问于2015-06-12得票数 0

回答已采纳

1回答

使用pyspark请求JSON

、、、

我正在尝试请求一个具有复杂架构的JSON文件(从Google Maps API)，以获取所有的lat和lng。请在这里找到JSON示意图： root |-- geocoded_waypoints: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- geocoder_status: string (nullable = t

浏览 1提问于2018-03-23得票数 0

2回答

用SCALA解析嵌套JSON

、、、

我希望注入遥测数据，输出是一个多层嵌套JSON文件。我对非常特定的字段感兴趣，但我无法解析JSON文件来获取数据。数据样本： { "version_str"："1.0.0“、"node_id_str"：”路由器-01“、"encoding_path"："sys/intf”、"collection_id"：241466、"collection_start_time"：0、"collection_end_time"：0、"msg_timestamp"：0、"s

浏览 4提问于2018-04-25得票数 2

2回答

Spark from_json - StructType和ArrayType

、、、

我有一个XML形式的数据集，其中一个节点包含JSON。Spark将其作为StringType读取，所以我尝试使用from_json()将JSON转换为DataFrame。我可以转换JSON字符串，但是如何编写使用Array的模式呢？不带数组的字符串-工作良好 import org.apache.spark.sql.functions._ val schemaExample = new StructType() .add("FirstName", StringType) .add("Surname", StringTy

浏览 7提问于2017-07-10得票数 5

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。 PySpark查询如下： df = ( spark.read.option("multiline", "true") .options(encoding="UTF-8") .load( "abfss://<Container>]@<DIR>.

浏览 3提问于2021-11-25得票数 0

2回答

如何访问spark sql中的嵌套属性

、、、

我正在尝试访问存储在表(拼图)中的json文件的嵌套属性。我可以通过select * from test来访问表中的所有记录；但是，我不能通过编写如下查询来访问嵌套属性: val tab= sqlContext.sql("select text，user.screen_name from test LIMIT 1") 模式如下： |-- text: string (nullable = true) | |-- truncated: boolean (nullable = true) | |-- user: struct (nullable = true) |

浏览 0提问于2016-04-24得票数 1

1回答

如何根据作为映射的列值筛选星体数据基项

、、、

我有这样的数据 +-------+------------------------+ |key | data| +-------+------------------------+ | 61|[a -> b, c -> d, e -> f]| | 71|[a -> 1, c -> d, e -> f]| | 81|[c -> d, e -> f] | | 91|[x -> b, y -> d, e -> f]| | 11|[a -&

浏览 1提问于2020-04-09得票数 1

回答已采纳

2回答

如何在流查询(Java)中使用JSON数组作为Kafka记录？

、、、、

我看过许多从Kafa主题读取JSON数据的示例。如果我从每个连接的主题中读取一条记录，我就能够成功地做到这一点，例如： {"customer_id": "8d267162-1478-11ea-8d71-362b9e155667", "product": "Super widget", "price": 10, "bought_date": "2019-01-01" } 下面的代码适用于上面的用例： package io.examle; import org.apache.sp

浏览 31提问于2019-12-02得票数 2

回答已采纳

1回答

java.lang.UnsupportedOperationException:不能在bean类中有循环引用，而只能获得类java.time.ZoneOffset的循环引用

、、

在执行以下命令时 StructType obs = Encoders.bean(Test.class).schema(); 我得到了以下错误 java.lang.UnsupportedOperationException: Cannot have circular references in bean class, but got the circular reference of class class java.time.ZoneOffset 类测试有OffsetDateTime字段，这会导致错误。如果我删除这个字段，错误也会消失。有什么方法可以避免这个循环引用错误，也可以使用Offset

浏览 20提问于2022-07-04得票数 2

回答已采纳

1回答

Spark AnalysisException在Spark SQL中“扁平化”DataFrame时

、

我正在使用给定here的方法来扁平化Spark SQL中的DataFrame。下面是我的代码： package com.acme.etl.xml import org.apache.spark.sql.types._ import org.apache.spark.sql.{Column, SparkSession} object RuntimeError { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("FlattenSchema").

浏览 19提问于2019-04-20得票数 6

回答已采纳

1回答

访问和爆炸json嵌套项的Pyspark

、、

我是个新手，我正试图解析一个包含要聚合的数据的json文件，但是我无法找到它的内容。我寻找其他的解决方案，但我找不到在我的情况下起作用的任何东西。这是导入的json的数据架构： root |-- UrbanDataset: struct (nullable = true) | |-- context: struct (nullable = true) | | |-- coordinates: struct (nullable = true) | | | |-- format: string (nullable = true) |

浏览 1提问于2019-02-21得票数 0

1回答

不同对象JSON阵列的火花选择

、

在Databricks/Spark/Python (SparkVersion2.4.0中，使用pyspark)，我从MongoDB获得一个包含可以嵌套的不同对象数组的字段的集合。我想把它转换成某种我可以选择的模式/结构。我尝试过许多不同的方法，但无法找到一种优雅的方法将其转换为模式/结构。简化JSON： { "id" : "abc123", "parent" : [ { "field1" : "1" }, {

浏览 0提问于2019-01-24得票数 1

1回答

生成包含SQL中点的属性名称的JSON

、、

我需要从Server中的表生成以下JSON有效负载(缩写)。请注意属性名称中的点。这是一种名为OData的特殊语法。 { "Id" : "A1", "new_cluster": { "spark_conf":{ "spark.master":"local[0]", "spark.databricks.cluster.profile": "singleNode" } } } 我尝试了以下T命令：

浏览 11提问于2022-06-13得票数 3

1回答

尝试使用Spark1.6 (WrappedArray)从嵌套JSON中收集A值

、、、

我试图在Dataframe中转换json文件，但我被困在基于数组的字段中。我使用的是Spark 1.6和Java。当我读取嵌套的Json并转换为Dataframe时，我可以读取一些字段，但当我尝试输入特定路径时，会显示错误。 DataFrame df = spark.read().json(sc.wholeTextFiles("PATH").values()); 我正在读取一个json文件。 df.select(col("orcamentos.itens")).printSchema(); root |-- itens: array (nullable =

浏览 29提问于2019-09-11得票数 0

3回答

由于Spark2.3，当引用的列只包含内部损坏的记录列时，不允许来自原始JSON/CSV文件的查询

、、、

我有一份json文件： { "a": { "b": 1 } } 我想读一读： val path = "D:/playground/input.json" val df = spark.read.json(path) df.show() 但是得到了一个错误：线程"main“org.apache.spark.sql.AnalysisException中的异常:由于Spark2.3，当引用的列只包含内部损坏的记录列(默认情况下称为_corrupt_record )时，不允许来自原始JSON/CSV文件的查询。例如: spar

浏览 0提问于2019-08-11得票数 24

回答已采纳

1回答

我的Spark Streaming应用中的java.lang.NullPointerException

、、、

我的spark应用程序需要处理数据流。为此，我使用了两个sparks模块:流模块和sql模块。特别是，我需要使用sql模块，因为对于从流接收到的每个记录，我必须查询本地元存储中的配置单元表。主要问题如下:在流处理开始之后(通过流上下文的方法start )，我不能使用sqlContext。当我试图在流处理过程中使用sqlContext时，引发以下错误： 15/06/22 12:41:15 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 2) java.lang.NullPointerException at org.apa

浏览 2提问于2015-06-22得票数 1

1回答

将JSON加载到Spark SQL

、、

我正在使用v2.1中的Spark SQL进行关于JSON的自学，并使用链接中的数据我遇到的问题是，当我使用： val lines = spark.read .option("multiLine", true).option("mode", "PERMISSIVE") .json("E:/VW/meta_plus_sample_Data.json")` 我让Spark SQL将所有数据作为一行返回。 +--------------------+--------------------+ | data

浏览 0提问于2020-03-06得票数 0

2回答

Scala火花:为json找到的多个源

、、

在我的hadoop集群上执行spark2-submit时，当在hdfs中读取.jsons目录时，我不知道如何解决它。我在几个黑板上发现了一些关于这方面的问题，但没有一个是很受欢迎的，也没有一个有答案。我尝试过显式导入org.apache.spark.sql.execution.datasources.json.JsonFileFormat，但导入SparkSession似乎是多余的，因此没有得到认可。不过，我可以确认这两个类都是可用的。 val json:org.apache.spark.sql.execution.datasources.json.JsonDataSource val

浏览 0提问于2020-07-05得票数 0

回答已采纳

1回答

处理spark中超过3 3GB的记录大小

、、、、

当单个记录大小超过3 3GB时，我得到以下异常 java.lang.IllegalArgumentException App > at java.nio.CharBuffer.allocate(CharBuffer.java:330) App > at java.nio.charset.CharsetDecoder.decode(CharsetDecoder.java:792) App > at org.apache.hadoop.io.Text.decode(Text.java:412) App > at org.apache.hadoop.io.Text.decod

浏览 0提问于2017-11-09得票数 5

2回答

通过Spark [AnalysisException]读取嵌套JSON无法解析列

、、、

我有这样的JSON数据： { "parent":[ { "prop1":1.0, "prop2":"C", "children":[ { "child_prop1":[ "3026" ] } ] } ] } 从S

浏览 2提问于2017-05-06得票数 3

回答已采纳

1回答

如何在spark sql中对数组进行成员级操作？

、

在spark-sql中，我有一个列为col的数据帧，其中包含一个大小为100的Int数组(例如)。我希望将该列聚合为一个值，该值是一个大小为100的Int数组，它包含该列中每个元素的总和。可以通过调用以下方法来完成此操作： dataframe.agg(functions.array((0 until 100).map(i => functions.sum(i)) : _*)) 这将生成明确执行100个聚合的代码，然后将100个结果显示为包含100个项的数组。然而，这似乎非常低效，因为如果我的数组大小超过大约1000项，catalyst甚至无法为此生成代码。在spark-sql中有没有一

浏览 2提问于2018-10-17得票数 0

1回答

如何使用R中的file功能来爆炸JSON文件中的数据集？

、、、、

Note -我已经引用了，但是虽然数据是不嵌套的，但我无法将数据转换为csv文件格式。 --我想通过使用功能来平平不同数据类型的数据。数据集包含数组和结构。我想爆炸的数据，以便我可以进一步转换为CSV文件格式。 Introduction R代码是通过使用Sparklyr包来创建数据库模式来编写的。给出了可复制的代码和数据库。现有结果 root |-- contributors : string |-- created_at : string |-- entities (struct) | |-- hashtags (array) : [string] | |-- media

浏览 0提问于2018-10-06得票数 4

1回答

使用hive/sql和spark读取json键值

、、、

我试图将这个json文件读入一个单元表中，顶层键，即1,2..，这里是不一致的。 { "1":"{\"time\":1421169633384,\"reading1\":130.875969,\"reading2\":227.138275}", "2":"{\"time\":1421169646476,\"reading1\":131.240628,\"reading2\":226.810211}", "

浏览 1提问于2015-01-13得票数 5

1回答

数据库SparkException超过spark.driver.maxResultSize

、、、、

我正在Azure DBR7.3LTS，SMAR3.0.1，Scala2.12上运行以下代码，这些代码位于Standard_E4as_v4 (32.0 GB内存，4核，1 DBU)和驱动程序(56.0GB内存，16核，3 DBU)的集群上目的是处理5.5TB的数据我面临以下例外："org.apache.spark.SparkException:由于阶段失败而中止的作业: 57071个任务中的1163个任务(4.0 GiB)的序列化结果的总大小大于spark.driver.maxResultSize 4.0 GiB“，在6.1min内，有148.4 GiB正在处理数据。我不收集或传输

浏览 3提问于2020-11-02得票数 0

回答已采纳

1回答

重塑熊猫系列

、、

我有一个dataframe，它有一个列，值如下- [[3. , 2., 1.],[3. , 1., 2.]] 我正在读取这个值，并将其作为pandas Series传递给udf。下面是该系列的值的外观，其中s的类型是 s.values = [array([array([3. , 2., 1.]), array([3. , 1., 2.])], dtype=object)] 它的形状显示为(1，)。我希望它的形状是1X2X3，但使用下面的2种方法尝试这样做会产生如下错误- #gives error - ValueError: cannot reshape array of siz

浏览 18提问于2020-07-26得票数 0

回答已采纳

1回答

如何从Apache中的Twitter Tweets中提取hashtag(或其他数组)

、、、、

我试图从JSON对象文件中使用Apache对Twitter Tweet数据进行分析。下面是我如何使用Spark的jsonFile方法加载它： val sqc = new org.apache.spark.sql.SQLContext(sc) val tweets = sqc.jsonFile("stored_tweets/*.json") tweets.registerTempTable("tweets") 接下来，我只使用以下行对hashtag实体进行了示例： val hashtags = sqc.sql("SELECT entities.has

浏览 1提问于2015-05-22得票数 1

回答已采纳

1回答

通过Scala从ElasticSearch读取嵌套数据

、、、

我试图通过Scala从Elasticsearch读取数据： Scala 2.11.8，Spark 2.3.0，Elasticsearch 5.6.8 连接-- spark2-shell --jars elasticsearch-spark-20_2.11-5.6.8.jar val df = spark.read.format("org.elasticsearch.spark.sql").option("es.nodes", "xxxxxxx").option("es.port", "xxxx").option(&

浏览 2提问于2020-02-28得票数 2

回答已采纳

3回答

使用Spark将平面数据转换为嵌套对象

、、

我需要帮助使用Apache / Scala将平面数据集转换为嵌套格式。是否可以自动创建从输入列命名空间派生的嵌套结构？ 1级2级？在我的示例中，嵌套级别由列标题中的句点符号'.'确定。我假设这是有可能实现的使用地图功能。我对其他解决办法持开放态度，特别是如果有一种更优雅的方法来实现同样的结果。 package org.acme.au import org.apache.spark.sql.types.StructType import org.apache.spark.sql.types.StructField import org.apache.spark.sql.ty

浏览 2提问于2018-09-16得票数 4

回答已采纳

1回答

在星火中将拼花文件加载到案例类中的性能

、、、

我正在评估不同方式在星火中加载Parquet文件的性能，差异是惊人的。在我们的Parquet文件中，我们有以下类型的嵌套案例类： case class C(/* a dozen of attributes*/) case class B(/* a dozen of attributes*/, cs: Seq[C]) case class A(/* a dozen of attributes*/, bs: Seq[B]) 从Parquet文件加载它们需要一段时间。因此，我对从Parquet文件加载case类的不同方法进行了基准测试，并使用Spark1.6和2.0对字段进行了求和。以下是我所做

浏览 2提问于2016-08-24得票数 7

1回答

触发多个输出路径导致多个输入读取

、

首先，为标题道歉，我不确定如何简洁地描述这一点。我有一个spark作业，它将日志解析为JSON，然后使用spark-sql将特定列转换为ORC并写入不同的路径。例如： val logs = sc.textFile("s3://raw/logs") val jsonRows = logs.mapPartitions(partition => { partition.map(log => { logToJson.parse(log) } } jsonRows.foreach(r => { val contentPath = "s3:

浏览 0提问于2017-10-19得票数 0

1回答

自定义数据源的自动火花模式推理

、、

我正在为自定义数据源(属性文件)实现spark(1.5.2) sql RelationProvider。请解释一下如何实现自动推理算法好吗？

浏览 3提问于2016-05-31得票数 0

1回答

如何从嵌套的json中读取字段？

、

这是我的测试json文件。 { "item" : { "fracData" : [ ], "fractimeData" : [ { "number" : "1232323232", "timePeriods" : [ { "validFrom" : "2021-08-03" } ] } ], "Module" : [ ] } } 我就是这样读json文件的。 s

浏览 3提问于2021-12-31得票数 -1

回答已采纳

1回答

读取json文件时，找到json的多个源时，spark2.0错误

、

当我使用spark2.0时，读取json文件如下： Dataset<Row> logDF = spark.read().json(path); logDF.show(); 但它失败了： 16/08/04 15:35:05 ERROR yarn.ApplicationMaster: User class threw exception: java.lang.RuntimeException: Multiple sources found for json (org.apache.spark.sql.execution.datasources.json.JsonFileFormat,

浏览 21提问于2016-08-04得票数 2

2回答

如何在火花放电中将密集向量的关系式转换成DataFrame？

、、、、

我有这样的DenseVector RDD >>> frequencyDenseVectors.collect() [DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 0.0, 1.0]), DenseVector([1.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]), DenseVector([1.0, 1.0, 0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0,

浏览 3提问于2016-12-26得票数 11

回答已采纳

2回答

火花:如何解析嵌套列表的JSON字符串以激发数据框架？

、、、

如何解析嵌套列表中的JSON字符串以激发pyspark中的数据帧？输入数据框架： +-------------+-----------------------------------------------+ |url |json | +-------------+-----------------------------------------------+ |https://url.a|[[1572393600000, 1.000],[1572480000000, 1.007]]| |h

浏览 1提问于2021-02-08得票数 2

回答已采纳