如何在spark scala中为每个记录创建一个xml文件

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我有一个包含如下记录的文件1_107570667_ANA_2C68EF2F-AB17-40EF-9

浏览 20提问于2018-09-07得票数 0

回答已采纳

3回答

我无法通过shell脚本查询spark中的表。但是如果我通过命令行运行，我就能得到结果。当我在shell中插入这些命令并尝试运行时，出现了问题。已创建shell脚本： vi test.sh 在spark shell命令下插入火花壳 val results =sqlContext.sql("SELECT * from table_name ")results.show() 它正在进入spark shell，但未运行以下两个命令 val results =sqlCont

浏览 37提问于2019-09-06得票数 0

回答已采纳

3回答

在Scala程序中减少Spark的日志输出

、、、

我正在编写一个遵循this example的Scala / Spark程序。我的工具是IntelliJ和sbt。(我没有使用scala spark shell。)我正在使用scala-logging和logback-classic，我需要减少Spark的日志记录，或者将spark日志记录定向到不同的.log文件。我尝试在我的代码中调用sc.setLogLevel(&quo

浏览 71提问于2019-01-18得票数 2

4回答

如何用Scala2.12重建apache

、

我使用的是Spark3.1.1，它使用Scala2.12，从下载的预构建Livy使用Scala2.11(可以在解压缩后找到名为repl_2.11-jars/的文件夹)。参考Aliaksandr Sasnouskikh制作的，Livy需要重建，否则即使在后会话中也会抛出错误{'msg': 'requirement failed: Cannot find Livy REPL在中，它提到：默认情况下，Livy是针对ApacheSpark2.4.5构建

浏览 20提问于2021-04-14得票数 3

回答已采纳

2回答

使用Spark / Scala从XML记录中提取元素

、、

我正在尝试从XML记录中提取元素，其中每个xml文件都有许多XML记录。下面是我正在使用的修改后的代码和示例xmls。我期望得到一个字符串数组，其中数组的每个元素都是"user:id"，但结果是":"。我原以为XML.loadString会解析每个文件，结果会得到单独的XML记录。这意味着如果我以这两个示例

浏览 3提问于2018-10-09得票数 2

4回答

eclipse(使用scala环境设置)：对象apache不是包org的成员

、、

我搜索了这个错误，它显示spark jars没有被导入。所以，我也导入了"spark-assembly-1.4.1-hadoop2.2.0.jar“。但同样的error.Below是我真正想要运行的： object ABC { //Scala Main Method println("Spark

浏览 0提问于2016-04-19得票数 3

1回答

在木星笔记本中使用PySpark读取XML

、、、

我试图读取XML文件：df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')并获得以下错误：我试过：$<em

浏览 2提问于2020-09-18得票数 2

4回答

NoClassDefFound :Scala/xml/元数据

、、、

我正在Java中运行一个简单的星火程序(IDE :Eclipse露娜，Maven)。/xml/MetaData at org.apache.spark.ui.SparkUI.initialize(SparkUI.scala:50) at org.apache.spark.ui.

浏览 8提问于2015-05-05得票数 7

回答已采纳

1回答

spark.eventLog.dir和spark.history.fs.logDirectory有什么区别？

在Spark中，事件日志目录和历史服务器日志目录有什么区别？spark.eventLog.dir hdfs:///var/log/spark/apps spark.history.fs.logDirectory hdfs:///var/log/spark/apps

浏览 3提问于2015-08-14得票数 18

1回答

如何在scala中生成以xml元素为键、xml为值的列表

、、

我有一个xml记录流，我使用hadoopRDD在scala中处理这些记录，最后保存在一个文件中，但是，在将这些xml保存到输出文件中之前，我需要根据特定的属性对它们进行排序。我想用xml值和xml创建列表，如下所示<Transaction> <eventid>1234<eventId

浏览 0提问于2018-03-06得票数 0

1回答

当使用spark时，我得到了一个org.apache.hadoop.hbase.spark.SparkSQLPushDownFilter :ClassNotFoundException

、、

我试图设置-罐子和设置spark.sparkContext.addJar("./hbase-spark-1.0.0.jar")，，但它不起作用；我的sbt代码：我的scala代码： val df = sql.read.format(&qu

浏览 6提问于2021-09-10得票数 2

回答已采纳

2回答

星星之弹Scala XML如何连接属性

、

我试图用逗号分隔符连接Scala中的XML属性。scala> val fileRead = sc.textFile("source_file") scala

浏览 1提问于2015-12-09得票数 0

回答已采纳

1回答

没有为方案配置AbstractFileSystem : gs

、、

我的核心-site.xml看起来很好，并且它具有所需的值。core-site.xml <name>fs.AbstractFileSystem.gs.impl</name>我能够在命令行

浏览 13提问于2021-12-09得票数 0

1回答

使用递归全局化将XML文档提取为pyspark中的字符串。

、、、

目标是将给定XPath表达式的XML文档作为字符串从一组文本文件中提取出来。困难之处在于文本文件格式的变化。可能是：一个zip / tar文件，具有不同级别的目录，单个XML<e

浏览 0提问于2018-05-18得票数 1

回答已采纳

1回答

Spark未能使用MatrixFactorizationModel加载模型

、、

MatrixFactorizationModel model = MatrixFactorizationModel.load(jsc.sc(),异常：线程"main“中的异常:不是文件: maprfs:/op/tc/model/data在org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java

浏览 1提问于2016-08-17得票数 1

回答已采纳

1回答

数据库Spark表花费了100万个小型XML文件

、、、、

我有一组100万文件，每个大小为~14 to 在Azure Blob存储中，安装在Azure中，我尝试使用CREATE TABLE，希望每个文件都有一个记录。文件的内容结构如下所示。", excludeAttribute True问题 CREATE TABLE语句运行于5.5小时( Spark中有sql

浏览 2提问于2019-02-22得票数 2

回答已采纳

1回答

用于spark* 3.0.0和Scala 2.12的Azure上的Databricks Spark监控*

我有一个Azure Databricks集群，它使用Databricks版本7.1 (Spark 3.0.0和Scala 2.12)运行集群。为此，我尝试构建spark-listeners-loganalytics-1.0-SNAPSHOT.jar JAR文件，如GitHub readme中所述。要编译它，我需要编辑POM以创建一个Maven配置文件，其中包括我当前的Spark和Scala版本，因此

浏览 11提问于2020-09-25得票数 1

回答已采纳

1回答

如何将每个输入流中的数据集组合为一个

、、

如何在应用转换之前将每个火花输入流中的数据集组合为一个。arrEle.show }}现在，它将所有记录写入输出文件。有什么帮助吗？(ClosureClean

浏览 2提问于2016-08-08得票数 0

3回答

如何在不更改log4j.properties的情况下关闭PySpark日志中的信息？

、、

我在一个集群中工作，在这个集群中，我没有权限在使用log4j.properties时更改文件以停止信息记录(如第一个答案中所解释的那样)。在上面问题的第一个答案中解释的以下解决方案适用于spark-shell (scala)import org.apache.log4j.Level但是对于带有python的spark

浏览 2提问于2015-09-11得票数 17

回答已采纳

2回答

无法从spark* sql插入到配置单元分区表*

、、、

我有一个配置单元分区表txnaggr_rt_fact，它有2个列分区txninterval和intervaltype。我正在尝试使用java从spark sql插入一条记录到这个表中。在插入过程中抛出异常。如果分区不存在，因为它必须创建一个新分区，并且创建失败，但是如果分区已经存在，则插入记录。)我发现在我的hive-site.xml (位于spark&#x

浏览 0提问于2018-08-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云