无法使用Java Spark API解析文件

文章/答案/技术大牛

发布

1回答

、、

我有一个日志文件，其中的条目如下现在使用Spark，我想计算每小时命中的队列数。

浏览 11提问于2016-09-06得票数 0

回答已采纳

1回答

为什么我在哪个jar或spark版本中得到错误和foreachBatch？

我尝试在sparkstream中使用foreachBatch方法，但得到错误:无法解析symbol foreachBatch并检查spark API，我仍然找不到此方法 http://spark.apache.org/docs/2.3.0/api/java/org/apache/spark/sql/streaming/

浏览 30提问于2020-09-14得票数 0

1回答

在Java类中找不到DataFrame火花

、、、

我正在使用Spark编写Java类的代码。我有一个错误："DataFrame不能解析为类型“，而有关导入的错误：”导入org.apache.spark.sql.DataFrame“不能被解析。这是类导入：import org.apache.spark.api.java.function.Functi

浏览 0提问于2018-05-14得票数 3

4回答

Scala中的Spark代码可以转换成Java吗？

、、、

我有使用Apache Spark的源码。源代码是用Scala编写的，我想把它转换成Java。是否可以从所有Scala源代码转换为Java？

浏览 0提问于2014-11-28得票数 0

1回答

我对apache和编写通过json文件解析的应用程序非常陌生。json文件中的一个属性是字符串数组。我希望运行一个查询，如果数组属性不包含字符串"None“，则该查询将选择行。我在array_contains包中找到了一些使用org.apache.spark.sql.functions方法的解决方案。然而，当我试图构建我的应用程序时，我得到以下无法找到符号错误的信息：我正在使用ApacheSpark2.0和maven来构建我的项目。我试图编译的代码

浏览 7提问于2017-04-20得票数 1

回答已采纳

2回答

无法读取java星火中的文件

、、

我试图使用eclipse在java上运行spark程序。如果我只是在控制台上打印一些东西，但是我无法使用textFile函数读取任何文件，它就在运行。我在某个地方读到，读取文件只能使用HDFS完成，但我无法在本地系统中完成。请让我知道如何访问/读取文件，如果使用HDFS，那么如何在我的本地系统中安装HDFS，这样我就可以编写文本文件。这是我正在测试的代码，虽然这个程序运行

浏览 1提问于2016-08-03得票数 1

回答已采纳

2回答

如何从Spark StreamingContext的DStream中获取文件名？

、、、

事件经过多次尝试和谷歌搜索后，如果我使用流上下文，则无法获取fileName。我可以使用SparkContext的wholeTextFiles，但是，我必须重新实现流上下文的功能。注意: FileName (错误事件作为json文件)是系统的输入，因此在输出中保留该名称非常重要，以便在审计期间可以跟踪任何事件。注意: FileName的格式如下。每个文件只包含一行复杂的json字符串。使用流上下文，我能够创建一个RDDString，其中每个字符串都是来自单个文件的js

浏览 0提问于2015-11-22得票数 2

2回答

将两个存在于蜂箱中的表连接在一起

、、、

我已经在eclipse中编写了Java程序来连接两个表，但是我在package附近得到了一个错误，下面是错误 package joins; import org.apache.spark.SparkContext; importorg.apache.s

浏览 0提问于2015-10-26得票数 0

1回答

使用SparkSession在Java或Scala中创建DSEGraphFrames

、、

我正在尝试用java或scala获取我的DSE图的DSEGraphFrame。我正在使用，如下所示DseGraphFrame graph = DseGraphFrameBuilder.dseGraph("test", spark);// load a graph in scala它们都需要一个<e

浏览 0提问于2017-08-11得票数 3

1回答

如何使用scala将RDD[某个case类]转换为csv文件？

、、

我有一个csv case类，我想把它转换成RDDsome文件。我使用的是spark 1.6和scala 2.10.5。Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv:148) at org.apache.spark.sql.DataFrameWriter.save(DataFrame

浏览 38提问于2019-06-28得票数 0

1回答

Spark2-提交失败，返回pyspark

、

我正在将应用程序从spark 1.6升级到Spark 2，但在Cloudera环境中使用pyspark的Spark2-submit失败。为此，我刚刚从spark-submit更新了spark2-submit，但它失败了，无法创建Spark上下文，并给出了下面的错误。看起来Spark 2配置缺少一些属性，不允许它识别存储python文件的暂存位置。: An error occurred while calling No

浏览 1提问于2019-05-01得票数 0

4回答

将大量Excel文件读入Apache

、、、、

我在HDFS中存储了100个Excel (*.xlsx)文件。100个*.xlsx文件被组织成10个目录，如下所示：/user/cloudera/raw_data我收到的一个明显的建议是使用电子表格应用程序的命令行实用工具。$ ssconvert dataPoint.xlsx dataPoint.csv 然后将其转储到HDFS中，这样我就可以直接读取*.csv<

浏览 6提问于2016-03-02得票数 3

1回答

如何在C#中运行Apache Spark* Source*

、

我想通过将spark java/scala api转换为dll文件来从C#运行apache spark源代码。我已经引用ikvm/ikvmc将spark jar文件转换为dll文件，但无法获得正确的结果。有没有办法在C#中运行火花源？请指导我解决这个问题？Apache spark支持Java、Scala、R、Python语言来运行Spark。将来会支持C#吗？

浏览 1提问于2015-06-25得票数 15

2回答

使用OpenCSV解析文件时出现的Spark序列化问题

、、、、

我在用Spark处理csv文件。最近，我用opencsv替换了手动的CSV行解析。, SerializedLambda[capturingClass=class test.Main, functionalInterfaceMethod=org/apache/spark/api/java$$anonfun$toScalaFunction$1, name: fun$1, type: interface org.apache.spark

浏览 16提问于2018-12-17得票数 1

回答已采纳

1回答

用星火中几个逗号分隔的字段映射RDD

、、

我是Spark的新手，我正在学习一个教程，其中包含几个字段的一行用Scala解析，scala的代码如下所示：map(pass=>我是星火公司的新手，我想使用Java来获得同样的结果。使用map (编译错误)，这看起来是合适的解决方案，但我无法使用以下方法提取字段15和7： JavaDStream<List<String>> words = line

浏览 2提问于2015-12-09得票数 0

回答已采纳

1回答

Spark从远程服务器读取文件

我有一个节点spark集群，并使用WholeTextFile api或Textfile API读取和解析文件。我可以知道spark允许从远程服务器读取文件吗？或者文件在物理上需要存在于Spark节点上。

浏览 5提问于2017-03-29得票数 1

1回答

Apache spark* -将JavaRDD转换为csv文件*

、、

我正在尝试使用Apache spark将我org.apache.spark.api.java.JavaRDD<Object>作为管道分隔的文本写入.txt文件。为此，我使用了spark提供的saveAsTextFile方法。但是这个方法的问题是，它直接将对象写到文件中，没有格式化，我也无法给出正确的文件名。因此，哪种方式是格式化/转换我的对象为管道分隔的字符串，并将其写入.tx

浏览 1提问于2017-11-17得票数 1

1回答

Scala : JniBasedUnixGroupsMapping:错误获取组:找不到用户名

、、、、

我一直用scala中的spark从本地系统连接到Hive (它在集群中)，最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中，并且能够连接到转移，但无法访问蜂窝表。如何更改HiveContext的用户 15/12/22 10:28:42 INFO ParseDriver:解析命令:显示表15/12/22 10:28:43 INFO ParseDriver: ParseDriver:解析完成15/

浏览 2提问于2015-12-22得票数 0

回答已采纳

1回答

使用负载标记点RDD时的电火花错误

、、、、

我用的是电火花我将每个数据行保存为具有稀疏数据的对象。我尝试使用MLUtils.saveaslibsvm，而不是使用MLUtils.loadlibsvm读取文件，并得到以下错误在org.apache.spark.api.python.PythonRunner(PythonRDD.scala:234) at org.apache.spark.<e

浏览 2提问于2017-08-10得票数 0

回答已采纳

1回答

如何将<class‘class’_. How .

、、、、

我对Spark完全陌生，目前我正在尝试使用Python编写一段简单的代码，对一组数据执行KMeans操作。在org.apache.spark.api.python.PythonRunner$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.python.PythonRunner(Thread.java:745) 17/02/26 23:31:58错误执行器:第23.0阶段任务6.0中的

浏览 2提问于2017-03-02得票数 5

回答已采纳

点击加载更多