如何通过Scala在Spark中使用JSON映射文件生成新的DataFrame

在Spark中使用Scala通过JSON映射文件生成新的DataFrame可以通过以下步骤实现：

导入必要的库和模块：import org.apache.spark.sql.{SparkSession, DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._
创建SparkSession对象：val spark = SparkSession.builder() .appName("JSON to DataFrame") .getOrCreate()
定义JSON映射文件的结构：val schema = StructType(Seq( StructField("name", StringType, nullable = true), StructField("age", IntegerType, nullable = true), StructField("city", StringType, nullable = true) ))
读取JSON文件并应用映射结构：val jsonDF = spark.read .schema(schema) .json("path/to/json/file.json")这里的"path/to/json/file.json"是JSON文件的路径，你需要将其替换为实际的文件路径。
对DataFrame进行操作和转换：你可以使用Spark提供的各种函数和操作来处理DataFrame，例如过滤、聚合、排序等。以下是一些示例：// 过滤年龄大于等于18岁的数据 val filteredDF = jsonDF.filter(col("age") >= 18) // 按城市分组并计算每个城市的平均年龄 val avgAgeDF = jsonDF.groupBy("city").agg(avg("age").alias("average_age")) // 按姓名升序排序 val sortedDF = jsonDF.orderBy("name")
显示DataFrame的内容：jsonDF.show()这将打印DataFrame的前20行数据。

以上是使用Scala在Spark中使用JSON映射文件生成新的DataFrame的基本步骤。对于更复杂的操作和需求，你可以进一步探索Spark的文档和相关资源。

腾讯云相关产品推荐：

腾讯云Spark：https://cloud.tencent.com/product/spark
腾讯云数据仓库（TencentDB for TDSQL）：https://cloud.tencent.com/product/tdsql
腾讯云数据湖（TencentDB for Data Lake）：https://cloud.tencent.com/product/datalake

使用scala追加转换后的列以激发数据格式

、、、

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。我正试着这样做- val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) val hiveDF = sqlContext.sql("select * from table_x") val system_generated_id = hiveDF("unique_key") val application_assigned_event_id = hiveDF("

浏览 1提问于2016-07-03得票数 1

回答已采纳

3回答

带有备选方案的重载方法foreachBatch

、

我正在尝试将json文件序列化为parquet格式。我有一个错误： org.apache.spark.api.java.function.VoidFunction2[org.apache.spark.sql.Datasetorg.apache.spark.sql.Row，java.lang.Long])org.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.streaming.DataStreamWriterorg.apache.spark.sql.Row错误：(34，25)重载方法foreachBatch与备选方

浏览 5提问于2020-07-28得票数 6

2回答

如何在火花作业中使用HiveContext添加jar

、、、

我试图将json文件添加到JSON文件中，以便访问JSONSerDe数据，将JSON从spark作业加载到hive表中。我的代码如下所示： SparkConf sparkConf = new SparkConf().setAppName("KafkaStreamToHbase"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(10)

浏览 4提问于2016-06-14得票数 2

1回答

线程“主”java.lang.IllegalArgumentException中的异常:需求失败

、、

在这里，我试图将时间戳动态地添加到数据帧中， {“行动”：“事件”、"id":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack"} 在上面输入的数据中，im试图用下面的代码追加时间戳 foreachRDD(rdd=> 74

浏览 1提问于2017-01-17得票数 0

2回答

如何配置胶书刊来处理scala代码？

、、

考虑scala代码： import com.amazonaws.services.glue.GlueContext import com.amazonaws.services.glue.util.{GlueArgParser, Job, JsonOptions} import org.apache.spark.SparkContext import scala.collection.JavaConverters.mapAsJavaMapConverter object MyGlueJob { def main(sysArgs: Array[String]) { val spa

浏览 1提问于2018-01-18得票数 2

1回答

用Apache Spark读取JSON数组

、、

我有一个json数组文件，如下所示： ["{\"timestamp\":1616549396892,\"id\":\"1\",\"events\":[{\"event_type\":\"ON\"}]}",{"meta":{"headers":{"app":"music"},"customerId":"2"}}] 我有一个json文件，节点看起来像这样：我正在尝试通过spark-shel

浏览 34提问于2021-03-25得票数 0

1回答

Pyspark数据库dataframe.show错误

、、、

我能够使用python dataframe连接到Hana数据库，并且能够获得dataframe.printSchema()输出，但是如果我尝试执行像dataframe.show()这样的操作，抛出的错误(例如connection是不可序列化的)，我们如何使连接可序列化，下面是使用的代码 from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="hdfspush") sqlctx = SQLContext(sc) df = sqlctx.re

浏览 2提问于2015-12-11得票数 0

回答已采纳

2回答

通过DataFrames使用spark-csv获取NullPointerException

、、

在中运行的示例Java代码如下: import org.apache.spark.sql.SQLContext；import org.apache.spark.sql.types.*； SQLContext sqlContext = new SQLContext(sc); StructType customSchema = new StructType( new StructField("year", IntegerType, true), new StructField("make", StringType, true), new S

浏览 2提问于2015-12-21得票数 8

1回答

如果方案为空或嵌套为空，则无法将数据框写入宗地文件

、、、、

我对scala和spark都很陌生。我有一个非常愚蠢的问题。我有一个从elasticsearch创建的数据框架。我正试图用拼图格式编写那个s3。下面是我看到的代码块和错误。一个好心的撒玛利亚人能在这个问题上给我指点一下吗？ val dfSchema = dataFrame.schema.json // log.info(dfSchema) dataFrame .withColumn("lastFound", functions.date_add(dataFrame.col("last_found"), -457

浏览 14提问于2019-08-25得票数 1

回答已采纳

4回答

如何在HiveContext中设置hive.metastore.warehouse.dir？

、、

我正在尝试编写一个依赖于DataFrame.saveAsTable()的单元测试用例(因为它是由文件系统支持的)。我将配置单元仓库参数指向本地磁盘位置： sql.sql(s"SET hive.metastore.warehouse.dir=file:///home/myusername/hive/warehouse") 默认情况下，应启用metastore的嵌入式模式，因此不需要外部数据库。但是HiveContext似乎忽略了这个配置:因为我在调用saveAsTable()时仍然会遇到这个错误： MetaException(message:file:/user/hive/wa

浏览 4提问于2015-05-29得票数 8

1回答

目录中单个json的scala -get文件大小

、、

我有一个json数据的架构，定义为 val gpsSchema: StructType = StructType(Array( StructField("Name",StringType,true), StructField("GPS", ArrayType( StructType(Array( StructField("TimeStamp",DoubleType,true), StructField("Longitude", DoubleType, tru

浏览 3提问于2022-01-18得票数 1

1回答

对json和dataframe错误触发非json

、、

我有一个json类型的文件(不是真正的json结构)，但是我转换为json并通过spark (我们在Spark1.6.0中)读取，我还不能使用spark 2中的多行功能。它显示结果，但同时出错。任何帮助都非常感谢。我有这样的文件。仅举一个例子，但它是一个数组： $result = [ { 'name' => 'R-2018:1583', 'issue_date' => '2018-05-17 02:51:06',

浏览 2提问于2018-08-31得票数 1

1回答

提交jars以激发集群时出现的问题

、、、

我试图使用IntelliJ在scala中创建一个基本作业。使用下面的代码，我必须构建scala并使用sbt assembly创建一个jar。然后将这些罐子连同火花-卡桑德拉连接器一起提交给星火星系团。因此，我的问题是如何在Intellij中不创建jar的情况下测试scala代码。而且，每次我更改我的build.sbt文件中的某些内容。它启动了一个下载依赖项的后台任务，即使我已经将其放在build.sbt文件中。那么，我要怎么做一次呢？代码: import org.apache.spark.SparkContext import org.apache.spark.SparkConf im

浏览 4提问于2016-04-15得票数 2

1回答

如何编写从json文件读取spark应用的单元测试

、、、

我在scala中有一个简单的Spark应用程序。现在，我希望我的spark应用程序只创建一个sparkSession并将Json文件读取到DataFrame中。 object SparkAppExample { def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder() .appName("Spark Scala Example") .getOrCreate() val records: DataFrame = sparkSession.read

浏览 15提问于2020-04-10得票数 0

1回答

被删除的google存储目录在调用Spark DataFrame.saveAsParquetFile()时显示“已经存在”。

、

在我通过Google控制台删除了目录(该目录由早期Spark (ver1.3.1)作业生成)之后，当重新运行作业时，它总是会失败，并且似乎该目录仍然存在于作业中；我无法用gsutil找到该目录。这是个窃听器还是我错过了什么？谢谢! 我所犯的错误： java.lang.RuntimeException: path gs://<my_bucket>/job_dir1/output_1.parquet already exists. at scala.sys.package$.error(package.scala:27) at org.apache.spark.sql.parquet

浏览 2提问于2015-07-10得票数 0

回答已采纳

1回答

Smark3.0读取json文件的速度比Spark2.4慢得多

、、、

我有大量的json文件，星火可以在36秒内读取，但Spark3.0几乎需要33分钟才能读取同样的文件。从更仔细的分析来看，Spark3.0选择的DAG与Spark2.0不同。有人知道这是怎么回事吗？Spark3.0是否有任何配置问题。火花2.4 scala> spark.time(spark.read.json("/data/20200528")) Time taken: 19691 ms res61: org.apache.spark.sql.DataFrame = [created: bigint, id: string ... 5 more fields] sc

浏览 2提问于2020-06-27得票数 6

回答已采纳

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

尝试对Spark数据帧进行计数时出现Keyerror

、

我有一个包含以下示例条目的spark数据帧。当我尝试计算数据帧中的行数时，我得到了一个Keyerror。有人能告诉我为什么会出现这个错误吗？下面是展开的data bricks堆栈跟踪，它显示存在Keyerror。 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-42-c5195177

浏览 0提问于2016-06-04得票数 1

2回答

Scala火花:为json找到的多个源

、、

在我的hadoop集群上执行spark2-submit时，当在hdfs中读取.jsons目录时，我不知道如何解决它。我在几个黑板上发现了一些关于这方面的问题，但没有一个是很受欢迎的，也没有一个有答案。我尝试过显式导入org.apache.spark.sql.execution.datasources.json.JsonFileFormat，但导入SparkSession似乎是多余的，因此没有得到认可。不过，我可以确认这两个类都是可用的。 val json:org.apache.spark.sql.execution.datasources.json.JsonDataSource val

浏览 0提问于2020-07-05得票数 0

回答已采纳

1回答

如何让忽略查询中的点？

、、

给定以下JSON文件： [{"dog*woof":"bad dog 1","dog.woof":"bad dog 32"}] 为什么这个Java代码会失败： DataFrame df = sqlContext.read().json("dogfile.json"); df.groupBy("dog.woof").count().show(); 但这并不是： DataFrame df = sqlContext.read().json("dogfile.json"); df.groupB

浏览 3提问于2016-06-03得票数 1

回答已采纳

1回答

对于s3上的大输入csv数据，AWS作业失败了

、、、、

对于小型s3输入文件(~10 is )，glue ETL作业工作正常，但对于较大的数据集(~200 is)，作业失败。添加部分ETL代码。 # Converting Dynamic frame to dataframe df = dropnullfields3.toDF() # create new partition column partitioned_dataframe = df.withColumn('part_date', df['timestamp_utc'].cast('date')) # store the data in

浏览 1提问于2017-11-24得票数 4

1回答

运行火花-使用Gradle从Intellij中移出红移

、

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

1回答

Vora无法连接领事代理

、、

我已经在基于SP3的SLES 11的HDP2.3上安装了Vora1.2。当我试图按照新安装和管理手册第2.7节(第34页)对Vora进行基于命令行的验证时，我现在得到了一个新的错误： scala> vc.sql(testsql) com.sap.spark.vora.discovery.DiscoveryException: Could not connect to Consul Agent on localhost:8500 : null at com.sap.spark.vora.discovery.ConsulDiscoveryClient$ConsulDisc

浏览 0提问于2016-04-05得票数 0

回答已采纳

1回答

将RDD转换为DataFrame scala - NoSuchMethodError

、

我正在尝试将scala中的RDD转换为DataFrame，如下所示 val posts = spark.textFile("~/allPosts/part-02064.xml.gz") import org.apache.spark.SparkContext._ import org.apache.spark._ import org.apache.spark.rdd._ import org.apache.spark.SparkContext._ val sqlContext = new org.apache.spark.sql.SQLContext(spark) imp

浏览 10提问于2016-07-23得票数 1

回答已采纳

2回答

没有模式的行上的java.lang.UnsupportedOperationExceptionfieldIndex未定义: row.getAs[String]上的异常

、

下面的代码将引发一个异常:未定义架构的行上的java.lang.UnsupportedOperationException: fieldIndex。这种情况发生在调用了在使用groupByKey、groupedByKey和flatMap对数据after进行flatMap和ExpressionEncoder调用之后返回的数据帧上。逻辑流: originalDf->groupByKey->flatMap->groupByKey->flatMap->show import org.apache.spark.sql.catalyst.encoders.RowEnc

浏览 2提问于2018-11-20得票数 7

回答已采纳

2回答

从Spark访问内核化远程HBASE集群

、、、、

我正在尝试使用从Spark读取来自kerberized实例的数据。我的集群配置本质上类似于：我将客户端计算机上的星火作业提交给远程spark独立集群，该作业试图从单独的HBASE集群中读取数据。如果我通过直接在我的客户端上运行带有master=local*的Spark集群来绕过独立集群，只要我第一次从客户端启动，就可以访问远程HBASE集群。但是，当我将我的主服务器设置为远程集群时，所有其他的信任都是相同的，我在org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:43)接收一个空指针异常(下面

浏览 8提问于2016-08-22得票数 0

1回答

阻止火花HiveContext连接到蜂巢

、、、

我在ApacheSpark1.3中使用HiveContext，因为我需要它更好的查询支持(vs1.3的SQLContext)。我正在运行一个Azure 'HDInsight‘星火集群。司机的HiveContext试图连接到一个不存在的蜂巢转移。这是弄坏了司机。我根本不需要蜂巢的支持。阻止火花的HiveContext试图连接到Hive的最佳方式是什么？例如，未设置特定环境属性？(有100多个可能相关的预置属性)。编辑堆栈： 15/10/14 06:35:29 WARN metastore: Failed to connect to the MetaStore Server...

浏览 3提问于2015-10-14得票数 2

1回答

使用Scala api触发数据帧到EdgeRDD (GraphX)

、、

有没有一种从Spark DataFrame到EdgeRDD的好方法，而不需要在Scala代码中硬编码类型？我见过的用例类定义了EdgeRDD的类型。让我们假设我们的Spark DataFrame有StructField、("dstID", LongType, false)和("srcID", LongType, false)，以及0到22个额外的StructField (我们对此进行了限制，以便可以使用TupleN来表示它们)。有没有一种通过从DataFrame中获取类型来定义EdgeRdd[TupleN]的干净方法？作为动机，考虑我们正在加载一个包含类型信息

浏览 1提问于2015-06-30得票数 0

1回答

星星之火--地图功能是否适用于Dataframe或仅仅是RDD？

、、、

我刚刚意识到我可以在Scala中做下面的事情 val df = spark.read.csv("test.csv") val df1=df.map(x=>x(0).asInstanceOf[String].toLowerCase) 但是，在Python中，如果我试图在DataFrame上调用map函数，就会引发错误。 df = spark.read.csv("Downloads/test1.csv") df.map(lambda x: x[1].lower()) 误差 Traceback (most recent call last): File &#

浏览 0提问于2019-09-23得票数 0

1回答

传递由: PySpark引起的函数错误的java.io.EOFException映射转换

当我试图将一个函数传递给Spark的map方法时，我遇到了一些问题。我的问题似乎是在功能，但不确定它。我的功能是这样的： def add_h3_hash_column(row): rowDict = row.asDict() hash = h3.geo_to_h3( rowDict["latitude"], rowDict["longitude"], resolution ) rowDict[f"h3_hash_{res}"] = str(hash) return rowDict de

浏览 34提问于2022-10-28得票数 0

1回答

添加新列DataFrame Spark

我尝试通过在dataframe中添加一个新列来使用SparkSQL。我的守则是： val df= sc.read.json("C:/Users/A661758/Desktop/TEST-XSLT.json") df.withColumn("UID", new org.apache.spark.sql.Column("UID")) 错误：'**UID**‘给定的输入列无法解析：我使用Spark2.1.0和Scala2.11.8 谢谢。

浏览 1提问于2017-03-14得票数 1

1回答

Spark DataFrame嵌套结构是否仅供选择？

、

我有一个包含一些数据的json文件，我可以从中创建DataFrame，我感兴趣的特定部分的模式如下所示： val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- attributes: struct (nullable = true) | |-- Address2: array (nullable = true) | | |-- value: struct (nullable = true) | | | |-- Zi

浏览 1提问于2015-05-28得票数 23

回答已采纳

1回答

Apache注册一个UDF返回的数据

、、

我有一个返回数据的UDF。就像下面的那个 scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)) res3: org.apache.spark.sql.DataFrame = [noprob: string, yesprob: string, pred: string] scala> predict_churn(Vectors.dense(2.0,1.0,0.0,3.0,4.0,4.0,0.0,4.0,5.0,2.0)).show +------------------+------

浏览 3提问于2016-12-20得票数 3

回答已采纳

1回答

如何使用StopWordsRemover来转换json对象的数据？

、、

我正在使用MLlib和Spark1.5.1。输入类型必须是ArrayType( StringType )，但获得StringType。我的密码怎么了？ StopWordsRemover remover = new StopWordsRemover() .setInputCol("text") .setOutputCol("filtered"); DataFrame df = sqlContext.read().json("file:///home/ec2-use

浏览 2提问于2015-11-07得票数 1

回答已采纳

1回答

无法从HBase访问运行在安全集群上的数据库？

、、、、

尝试从Windows中的Eclipse程序连接到Windows。群集是secured using Kerberos身份验证，因此它没有连接到Hbase数据库。每次我们创建jar文件并在集群中运行时。但是这对于开发和调试并没有用。如何在类路径中设置hbase-site.xml？我下载了*site.xml文件，尝试将hbase-site.xml, core-site.xml and hdfs-site.xml作为source文件夹添加，并尝试从项目构建路径中将该文件添加为外部类文件夹，但没有任何工作。我该怎么做呢？我们是否可以在hbase-site.xml中设置sqlContext，因为

浏览 4提问于2016-11-18得票数 0

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列的初始(“默认值”)值应用到所有行。 val json : String = """{ "x": true, "y": "not true" }""

浏览 4提问于2016-10-10得票数 7

回答已采纳

2回答

星火流异常: java.util.NoSuchElementException: None.get

、、、、

我通过将SparkStreaming数据转换为数据格式将其写入HDFS：码 object KafkaSparkHdfs { val sparkConf = new SparkConf().setMaster("local[*]").setAppName("SparkKafka") sparkConf.set("spark.driver.allowMultipleContexts", "true"); val sc = new SparkContext(sparkConf) def main(args: Arr

浏览 0提问于2018-06-22得票数 5

回答已采纳

1回答

Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob.时出错ModuleNotFoundError:没有名为“numpy”的模块

、、、、

有人能帮助解决这个问题吗？它没有显示名为'numpy‘的模块，但我已经在笔记本中安装并导入了它。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 223.0 failed 1 times, most recent failure: Lost task 0.0 in stage

浏览 118提问于2019-12-03得票数 0

1回答

Spark RDD - Scala写和Python读

、、、、

我有一个简单的Spark Scala脚本，它读取一堆日志文件并返回一个RDD[Map[String, String]] 我很难将Scala RDD导出给pyspark用户。首先尝试使用Jackson编写json文件。 val mapper = new ObjectMapper() mapper.registerModule(DefaultScalaModule) val rec = sc.textFile("/path/to/log/file.log"). [ omissis ] rec.map(f => mapper.writeValueAsString(f)

浏览 0提问于2017-03-29得票数 0

1回答

在java中激发Dataframe sql -如何转义单引号

我使用的是火花-核心，火花-sql，Spark 2.10(1.6.1)，scala-反射2.11.2。我试图过滤通过蜂巢上下文创建的数据. df = hiveCtx.createDataFrame(someRDDRow, someDF.schema()); 我试图筛选的专栏中有一个包含多个单引号。我的过滤器查询将类似于 df = df.filter("not (someOtherColumn= 'someOtherValue' and comment= 'That's Dany's Reply'&#

浏览 0提问于2018-07-17得票数 2

2回答

Spark streaming + json4s-jackson依赖问题

、、、、

我无法在我的spark 1.4.1流媒体应用程序中使用json4s-Jackson 3.2.11。考虑到是spark-core项目中的现有依赖项导致了问题，这里解释了-> ，我使用调整后的core/pom.xml从源代码构建Spark。我已经将引用从json4s-jackson_ 2.10 :3.2.10更改为3.2.11，因为2.10版本不支持提取到隐式类型。我已经用重新构建的jars替换了我的intellij IDEA项目中引用的源jars，但是我仍然得到了和以前一样的错误。我担心火花一定还在以某种方式引用json4s 3.2.10？下面是我的简单测试： object Stre

浏览 1提问于2015-09-04得票数 5

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1.txt") 16/12/29 11:55:20 text.TextRelation:在驱动程序上列出text.TextRelation base_df.show(10) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11

浏览 5提问于2016-12-29得票数 1

1回答

星火数据集:示例:无法生成编码器问题

、、、、

新的激发世界和尝试一个用scala编写的数据集示例，这是我在网上找到的。在通过SBT运行它时，我继续获取以下错误 org.apache.spark.sql.AnalysisException: Unable to generate an encoder for inner class 你知不知道我在看什么还可以自由地指出编写相同数据集示例的更好方法。谢谢 > sbt> runMain DatasetExample Using Spark's default log4j profile: org/apache/spark/log4j-defaults.propert

浏览 5提问于2016-10-25得票数 8

回答已采纳

1回答

捕获星火中映射函数上引发的异常

、、

我正在读取一个文件，它有一些损坏的data.My文件，如下所示： 30149;E;LDI0775100 350000003221374461 30153;168034601 350000003486635135 第二行是如何看待like.The，第一行在第一列中有一些额外的字符。因此，我只想捕捉由于data.Not损坏而引发的任何异常，仅在上面的示例中。下面是我将文件加载到RDD中并试图捕获map函数中的异常的代码。 val rawCustfile = sc.textFile("/tmp/test_custmap") case class Row1(file_id:

浏览 1提问于2017-05-04得票数 3

回答已采纳

1回答

如何从HDFS中检索Avro数据？

、、

我为它创建了一个JSON数据和一个Avro模式： {"username":"miguno","tweet":"Rock: Nerf paper, scissors is fine.","timestamp": 1366150681 } {"username":"BlizzardCS","tweet":"Works as intended. Terran is IMBA.","timestamp": 1366154481 } 和 {“

浏览 5提问于2014-12-19得票数 2

回答已采纳

1回答

org.apache.spark.sql.AnalysisException:必须使用writeStream.start() kafka执行流源查询

、、、、

我想要管道一个python机器学习文件，预测输出，然后将它附加到我的数据文件中，然后保存它。我得到的错误是:- 异常详细信息 Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();; kafka t org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.throwError(

浏览 3提问于2020-10-17得票数 1

1回答

火花会话文本和文本文件方法之间的区别？

、、、、

我正在使用，并尝试从文本文件中创建数据和数据集。要从文本文件获取数据集，有两个选项，文本和textFile方法，如下所示： scala> spark.read. csv format jdbc json load option options orc parquet schema table text textFile 下面是如何从这两种方法获取数据集和数据： scala> val df = spark.read.text("/Users/karanverma/Documents/logs1.txt") df: or

浏览 0提问于2019-03-28得票数 1

回答已采纳

1回答

读取Spark2.3.0中的Zstandard压缩文件

、、、

据推测，Apache支持Facebook的Zstandard压缩算法，从Spark2.3.0 ()开始，但我无法真正读取Zstandard压缩文件： $ spark-shell ... // Short name throws an exception scala> val events = spark.read.option("compression", "zstd").json("data.zst") java.lang.IllegalArgumentException: Codec [zstd] is not available.

浏览 7提问于2018-06-15得票数 8

回答已采纳

1回答

错误:调用fit()函数时，“Python未能连接”

、

我正在尝试为文本分类训练一个ANN： mlp = MultilayerPerceptronClassifier(maxIter=10, layers=[5,3], blockSize=128, seed=123) model_stacking = mlp.fit(input_vector.select(['features', 'label'])) preditions_foo = model_stacking.transform(validation) predition = evaluator.evaluate(preditions_foo) 当应用fit(

浏览 2提问于2019-06-27得票数 1

1回答

从dataframe‘java.lang.IllegalArgumentException创建一个Hive表时出错:错误FS: file:/tmp/火花预期:hdfs://namervice1’

、、、、

我是新来的火花。我正在尝试开发一个应用程序，使用Spark1.6将json数据保存到一个Hive表中。这是我的代码： val rdd = sc.parallelize(Seq(arr.toString)) //arr is the Json array val dataframe = hiveContext.read.json(rdd) dataframe.registerTempTable("RiskRecon_tmp") hiveContext.sql("DROP TABLE IF EXISTS RiskRecon_TOES") hiveConte

浏览 7提问于2017-07-12得票数 0

回答已采纳