spark dataframe到Scala中的pairedRDD

Spark DataFrame是一种分布式数据集，它提供了一种高级抽象的数据结构，类似于关系型数据库中的表格。DataFrame可以通过多种方式创建，包括从结构化数据源（如JSON、CSV、Parquet）加载、转换已有的RDD、执行SQL查询等。

在Spark中，DataFrame和RDD是两种不同的数据抽象。DataFrame是一种更高级的数据结构，它提供了更多的优化和查询功能，而RDD则是一种更底层的数据结构，提供了更多的灵活性和控制力。

将Spark DataFrame转换为Scala中的pairedRDD可以通过使用DataFrame的rdd属性来实现。rdd属性返回一个RDD对象，然后可以使用RDD的map或flatMap等转换操作将其转换为pairedRDD。

下面是一个示例代码，展示了如何将Spark DataFrame转换为Scala中的pairedRDD：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("DataFrame to pairedRDD")
  .master("local")
  .getOrCreate()

// 创建一个DataFrame
val df = spark.read
  .format("csv")
  .option("header", "true")
  .load("data.csv")

// 将DataFrame转换为pairedRDD
val pairedRDD = df.rdd.map(row => (row.getString(0), row.getString(1)))

// 打印pairedRDD中的数据
pairedRDD.foreach(println)

在上面的示例中，我们首先创建了一个SparkSession对象，然后使用spark.read方法从CSV文件中加载数据创建了一个DataFrame。接下来，我们使用DataFrame的rdd属性将其转换为RDD，并使用map操作将每一行转换为一个键值对，其中键是第一列的值，值是第二列的值。最后，我们使用foreach操作打印出pairedRDD中的数据。

对于这个问题，腾讯云提供了一系列与Spark相关的产品和服务，例如腾讯云的云服务器CVM、弹性MapReduce（EMR）等。您可以通过访问腾讯云的官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

Spark:加载或选择ORC格式的配置单元表

、、、、

我正在尝试加载一个用spark sql以ORC格式创建的托管配置单元表。 SparkConf conf = new SparkConf().setAppName(ConnectionTest.class.getName()).setMaster(master); JavaSparkContext context = new JavaSparkContext(conf); SQLContext sqlContext = new HiveContext(context); sqlContext.sql("SELECT * FROM schema.tableName").show

浏览 21提问于2017-04-20得票数 3

2回答

简单sparksql联接查询中丢失的执行器

、、

我正在运行一个简单的sparkSQL查询，它在两个数据集上进行匹配，每个数据集大约是500 is。所以整个数据都在1TB左右。 val adreqPerDeviceid = sqlContext.sql("select count(Distinct a.DeviceId) as MatchCount from adreqdata1 a inner join adreqdata2 b ON a.DeviceId=b.DeviceId ") adreqPerDeviceid.cache() adreqPerDeviceid.show() 作业工作良好，直到数据加载(10k任务分配

浏览 3提问于2016-10-17得票数 1

回答已采纳

1回答

运行火花-使用Gradle从Intellij中移出红移

、

我试图使用星火红移库，并且无法操作由sqlContext.read()命令创建的数据(从redshift读取)。这是我的代码： Class.forName("com.amazon.redshift.jdbc41.Driver") val conf = new SparkConf().setAppName("Spark Application").setMaster("local[2]") val sc = new SparkContext(conf) import org.apache.spark.sql._ val sqlContext

浏览 4提问于2015-11-04得票数 1

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。这是我的代码： val DF = hiveContext.sql("select * from (select * from test_table where partition_date='2017-11-22') a JOIN (select max(id) as bid from test_table where partition_date='2017-11-22' group by at_id) b ON a.id=b.bid")

浏览 1提问于2017-11-27得票数 0

回答已采纳

4回答

如何在Spark中强制DataFrame求值

、

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。AFAIK调用像count这样的操作并不能确保所有的Columns都是实际计算的，show可能只计算所有Rows的一个子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3.nabble.com/Will-

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

无法从HBase访问运行在安全集群上的数据库？

、、、、

尝试从Windows中的Eclipse程序连接到Windows。群集是secured using Kerberos身份验证，因此它没有连接到Hbase数据库。每次我们创建jar文件并在集群中运行时。但是这对于开发和调试并没有用。如何在类路径中设置hbase-site.xml？我下载了*site.xml文件，尝试将hbase-site.xml, core-site.xml and hdfs-site.xml作为source文件夹添加，并尝试从项目构建路径中将该文件添加为外部类文件夹，但没有任何工作。我该怎么做呢？我们是否可以在hbase-site.xml中设置sqlContext，因为

浏览 4提问于2016-11-18得票数 0

1回答

奴隶的迷失和缓慢的加入火花

、、、

我在一个公共列上连接了两个dataframes，然后运行了一个show方法： df= df1.join(df2, df1.col1== df2.col2, 'inner') df.show() 然后，join运行得非常慢，最后引发了一个错误:奴隶丢失。 Py4JJavaError: An error occurred while calling o109.showString. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage

浏览 4提问于2016-11-16得票数 0

1回答

SparkR中的scala.MatchError (使用Spark SQL的DataFrame)

、、、

浏览 2提问于2016-07-27得票数 1

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1.txt") 16/12/29 11:55:20 text.TextRelation:在驱动程序上列出text.TextRelation base_df.show(10) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11

浏览 5提问于2016-12-29得票数 1

3回答

为什么连接失败与"java.util.concurrent.TimeoutException:期货超时后[300秒]“？

、、、

我用的是火花1.5。我有两份表格的数据： scala> libriFirstTable50Plus3DF res1: org.apache.spark.sql.DataFrame = [basket_id: string, family_id: int] scala> linkPersonItemLessThan500DF res2: org.apache.spark.sql.DataFrame = [person_id: int, family_id: int] libriFirstTable50Plus3DF有766,151记录，linkPersonItemLessThan

浏览 5提问于2016-12-13得票数 71

回答已采纳

1回答

使用“发现”参数获取com.sap.spark.vora.VoraConfigurationException

、、

我在SLES 11 SP3上安装了HDP 2.3.4集群和3台机器，并安装了Vora1.2 终于让发现号服务开始工作了。我可以在中验证它。另外，Vora Thriftserver也不会死。这样我就可以通过第34页上的"val =(Sc)“一行。但是，当我试图创建一个表时，我会得到以下内容： com.sap.spark.vora.VoraConfigurationException: Following parameter(s) are invalid: discovery at com.sap.spark.vora.config.ParametersValidator

浏览 3提问于2016-05-13得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

使用scala追加转换后的列以激发数据格式

、、、

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。我正试着这样做- val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) val hiveDF = sqlContext.sql("select * from table_x") val system_generated_id = hiveDF("unique_key") val application_assigned_event_id = hiveDF("

浏览 1提问于2016-07-03得票数 1

回答已采纳

1回答

在码头集装箱齐柏林飞艇运行火花时未发现lzo

、、、

我试图在齐柏林飞艇上运行星火代码，我得到了这样的信息: java.lang.ClassNotFoundException:类com.hadoop.compression.lzo.LzoCodec未找到同样的问题与齐柏林飞艇嵌入式火花和从我自己安装的火花外壳(1.6.3) Conf : 来自debian的码头集装箱:jessie 齐柏林飞艇版本: 0.6.2 (安装自tar，而不是从源代码构建) cdh版本: 5.9.0 liblzo2-dev和hadoop-lzo安装在容器上。 SPARK_HOME和HADOOP_HOME被设置为env var，在conf/zeppeli

浏览 0提问于2016-12-30得票数 2

回答已采纳

2回答

从Spark访问内核化远程HBASE集群

、、、、

我正在尝试使用从Spark读取来自kerberized实例的数据。我的集群配置本质上类似于：我将客户端计算机上的星火作业提交给远程spark独立集群，该作业试图从单独的HBASE集群中读取数据。如果我通过直接在我的客户端上运行带有master=local*的Spark集群来绕过独立集群，只要我第一次从客户端启动，就可以访问远程HBASE集群。但是，当我将我的主服务器设置为远程集群时，所有其他的信任都是相同的，我在org.apache.hadoop.hbase.security.UserProvider.instantiate(UserProvider.java:43)接收一个空指针异常(下面

浏览 8提问于2016-08-22得票数 0

1回答

线程“主”java.lang.IllegalArgumentException中的异常:需求失败

、、

在这里，我试图将时间戳动态地添加到数据帧中， {“行动”：“事件”、"id":1173、"lat":0.0、"lon":0.0、"rollid":55、"event":"type“、"ccd":0、"fone":"ione”、"version":"10.1“、"item":"shack"} 在上面输入的数据中，im试图用下面的代码追加时间戳 foreachRDD(rdd=> 74

浏览 1提问于2017-01-17得票数 0

1回答

[ spark -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java

、、、

我正在尝试将spark-cassandra使用的项目从scala_2.11重构为java_1.8。我使用的是spark-sql_2.11-2..3.1和spark-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和DataFrame被使用。 import com.datastax.spark.connector._ import spark.implicits._ & import org.apache.spark.sql.DataFrame 现在如何将它们转换成等价的java代码呢？有样品吗？ Dat

浏览 7提问于2019-04-17得票数 0

回答已采纳

0回答

尝试在SparkSQL中显示表格时引发ValueError(item)

、、、

我使用PySpark和SparkSQL编写了以下代码，其中我尝试创建一个DataFrame，将其另存为表，然后显示该表： schema = StructType([StructField("int_field", IntegerType()), StructField("string_field", StringType())]) dfRow = sqlContext.createDataFrame(simulation, schema) dfRow.registerTempTable("myRow

浏览 1提问于2016-07-06得票数 0

1回答

在java中通过Spark存储orc格式

、、、

我正在使用spark 1.3.1，我想以ORC格式以蜂巢形式存储数据。在下面显示错误的行中，看起来orc不支持spark 1.3.1中的数据源。 dataframe.save("/apps/hive/warehouse/person_orc_table_5", "orc"); java.lang.RuntimeException: Failed to load class for data source: orc at scala.sys.package$.error(package.scala:27) at org.apache.spark

浏览 5提问于2015-08-18得票数 0

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

、

我目前正在使用Spark 1.4.0，并开始使用ML pipeline framework。我运行了示例程序"ml.JavaSimpleTextClassificationPipeline"，它使用LogisticRegression。但是我想做多类分类，所以我在org.apache.spark.ml.classification包中使用了org.apache.spark.ml.classification。使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。本专栏仅提

浏览 4提问于2015-07-17得票数 1

2回答

未指定选项'schema‘使用DAS3.1.0设置wso2 AM 1.10.x

、、

我正在尝试使用DAS3.1.0安装wso2应用程序接口管理器1.10.0。DAS将使用MySQL 5.7.18。我从DAS包中运行mysql5.7.sql以在MySQL中创建DB模式。我还下载了MySQL-connector-java-5.1.35-bin.jar，并将其复制到repository\component\lib目录中。我在API管理器中打开了Configure Analytics，并成功保存了配置。我可以看到API管理器可以毫无问题地与DAS通信。但在DAS的carbon日志中，我看到了如下异常： TID: [-1234] [] [2017-05-26 15:30:00,36

浏览 2提问于2017-05-27得票数 2

1回答

Vora无法连接领事代理

、、

我已经在基于SP3的SLES 11的HDP2.3上安装了Vora1.2。当我试图按照新安装和管理手册第2.7节(第34页)对Vora进行基于命令行的验证时，我现在得到了一个新的错误： scala> vc.sql(testsql) com.sap.spark.vora.discovery.DiscoveryException: Could not connect to Consul Agent on localhost:8500 : null at com.sap.spark.vora.discovery.ConsulDiscoveryClient$ConsulDisc

浏览 0提问于2016-04-05得票数 0

回答已采纳

3回答

并行化/避免spark中的foreach循环

、、、

我写了一个类，它得到一个DataFrame，在它上面做一些计算，并可以导出结果。数据帧由密钥列表生成。我知道我现在正在以一种非常低效的方式做这件事： var l = List(34, 32, 132, 352) // Scala List l.foreach{i => val data:DataFrame = DataContainer.getDataFrame(i) // get DataFrame val x = new MyClass(data) // initialize MyClass with new Ob

浏览 1提问于2016-06-28得票数 12

1回答

提交jars以激发集群时出现的问题

、、、

我试图使用IntelliJ在scala中创建一个基本作业。使用下面的代码，我必须构建scala并使用sbt assembly创建一个jar。然后将这些罐子连同火花-卡桑德拉连接器一起提交给星火星系团。因此，我的问题是如何在Intellij中不创建jar的情况下测试scala代码。而且，每次我更改我的build.sbt文件中的某些内容。它启动了一个下载依赖项的后台任务，即使我已经将其放在build.sbt文件中。那么，我要怎么做一次呢？代码: import org.apache.spark.SparkContext import org.apache.spark.SparkConf im

浏览 4提问于2016-04-15得票数 2

1回答

星火窗口函数需要HiveContext吗？

、、、

我在这个博客上尝试了一个窗口函数的例子。如果在运行program.My问题时出现以下错误，是否需要hivecontext来执行spark中的窗口函数？ Exception in thread "main" org.apache.spark.sql.AnalysisException: Could not resolve window function 'avg'. Note that, using window functions currently requires a HiveContext; at org.apache.spark.sql.cat

浏览 3提问于2016-10-29得票数 0

回答已采纳

1回答

org.apache.spark.sql.AnalysisException:必须使用writeStream.start() kafka执行流源查询

、、、、

我想要管道一个python机器学习文件，预测输出，然后将它附加到我的数据文件中，然后保存它。我得到的错误是:- 异常详细信息 Exception in thread "main" org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();; kafka t org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$.throwError(

浏览 3提问于2020-10-17得票数 1

1回答

parquet.Preconditions.checkState(ZLjava/lang/String;)V :java.lang.NoSuchMethodError

运行Spark1.3.1和1.4.1时得到以下错误 parquet.Preconditions.checkState(ZLjava/lang/String；：java.lang.NoSuchMethodError( parquet.schema.Types$PrimitiveBuilder.build(Types.java:314) at parquet.schema.Types$PrimitiveBuilder.build(Types.java:232) at parquet.schema.Types$Builder.named(Types.java:210) at org.apache.

浏览 0提问于2015-08-02得票数 2

1回答

尝试对Spark数据帧进行计数时出现Keyerror

、

我有一个包含以下示例条目的spark数据帧。当我尝试计算数据帧中的行数时，我得到了一个Keyerror。有人能告诉我为什么会出现这个错误吗？下面是展开的data bricks堆栈跟踪，它显示存在Keyerror。 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-42-c5195177

浏览 0提问于2016-06-04得票数 1

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。 >>> from pyspark.sql import Row >>> rdd_ret.count() 9301 >>> rddofrows = rdd_ret.map(lambda x: Row(**x)) >>> things = rddofrows.take(10000) >>> len(things) 9301 >>> [type(x) fo

浏览 0提问于2018-06-21得票数 2

1回答

datastax火花卡桑德拉连接器的问题

、、、、

在我继续解释这个问题之前，有人能告诉我sparkSQL和CassandraSQLContext的区别吗？我正在星星之火-cassandra集群上运行scala代码(不想为测试目的创建jar )。因此，我有下面的代码，它对cassandra进行一些基本查询。但是，每次运行代码时，我都会得到以下错误： Java.lang.ClassNotFoundException: com.datastax.spark.connector.rdd.partitioner.CassandraPartition 尽管我在build.sbt中也提到过同样的问题。此外，我还尝试给出我单独创建的连接器的显式路径(在sc

浏览 0提问于2016-04-19得票数 0

回答已采纳

1回答

如何使用Zeppelin /HDP2.4中的Spark解释器在JsonSerDe中运行配置单元表的查询？

、

无法在Zeppelin中使用spark解释器运行配置单元查询。我能够加载配置单元上下文。配置单元表正在使用org.apache.hive.hcatalog.data.JsonSerDe。但是查询总是返回：classNotFoundException org.apache.hive.hcatalog.data.JsonSerDe。我在spark配置中添加了spark.executor.extraClassPath和spark.driver.extraClassPath。我也尝试过复制/interpreter/spark/dep文件夹中的jar，但没有成功。我在Zeppelin解释器配置中

浏览 4提问于2016-12-25得票数 1

3回答

文本列上的Pyspark DataFrame自定义项

、、、、

我正在尝试对PySpark DataFrame中的一些Unicode列进行一些NLP文本清理。我已经尝试了Spark 1.3，1.5和1.6，但似乎无法让它在我的生命中正常工作。我也尝试过使用Python2.7和Python3.4。我已经创建了一个非常简单的udf，如下所示，它应该只为新列中的每条记录返回一个字符串。其他函数将操作文本，然后在新列中返回更改后的文本。 import pyspark from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql import SQLConte

浏览 4提问于2016-01-15得票数 21

回答已采纳

1回答

被删除的google存储目录在调用Spark DataFrame.saveAsParquetFile()时显示“已经存在”。

、

在我通过Google控制台删除了目录(该目录由早期Spark (ver1.3.1)作业生成)之后，当重新运行作业时，它总是会失败，并且似乎该目录仍然存在于作业中；我无法用gsutil找到该目录。这是个窃听器还是我错过了什么？谢谢! 我所犯的错误： java.lang.RuntimeException: path gs://<my_bucket>/job_dir1/output_1.parquet already exists. at scala.sys.package$.error(package.scala:27) at org.apache.spark.sql.parquet

浏览 2提问于2015-07-10得票数 0

回答已采纳

2回答

Python Spark查询配置单元仅返回架构

、、、、

当我从Hive中选择data时，它会返回一个dataframe，但我不能访问模式以外的任何内容。 from spark import HiveContext, SQLContext hive_context = HiveContext(sc) hive_context.sql("USE myDatabase") data = hive_context.sql("SELECT * FROM myTable") data.show() 当我检查它返回的"data“类型时： <class 'pyspark.sql.dataframe.DataF

浏览 1提问于2018-04-19得票数 0

1回答

星火ML索引器不能用点解析DataFrame列名？

、、、

我有一个DataFrame，列名为a.b。当我将a.b指定为的输入列名时，具有消息“无法解析给定输入列a.b”的AnalysisException。我用的是星火1.6.0。我知道早期版本的Spark可能对列名中的点有问题，但在最近的版本中，可以在Spark中的列名和SQL查询中使用反引号。例如，这就是另一个问题的解决方案，。其中一些问题报告为，但这一问题在1.4.0中得到了解决。下面是一个最小的示例和堆栈跟踪： public class SparkMLDotColumn { public static void main(String[] args) { // Ge

浏览 1提问于2016-01-22得票数 16

2回答

如何在火花作业中使用HiveContext添加jar

、、、

我试图将json文件添加到JSON文件中，以便访问JSONSerDe数据，将JSON从spark作业加载到hive表中。我的代码如下所示： SparkConf sparkConf = new SparkConf().setAppName("KafkaStreamToHbase"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaStreamingContext jssc = new JavaStreamingContext(sc, Durations.seconds(10)

浏览 4提问于2016-06-14得票数 2

1回答

在Scala Spark和PySpark之间传递sparkSession

、、、

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。 spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data Scalacode def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { i

浏览 59提问于2019-10-01得票数 4

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

、、、

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中将流媒体方法从spark kafkastreaming改为结构化流媒体，因此早期使用kafkaUtils的方法产生了DstreamDocument 在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.format("kafka").option("kafka.bootstrap.servers","brokerList").option("subsc

浏览 15提问于2019-11-09得票数 2

1回答

连接SparklyR时出错

、、、

我试图遵循上的简单指南，但它在一开始就抛出了错误。我按照指南中的说明安装了SparklyR和Spark的本地版本： install.packages("sparklyr") library(sparklyr) spark_install(version = "1.6.2") 然后我打开一个连接，下面是错误发生的地方： sc <- spark_connect(master = "local") 我得到"R code execution error“和以下信息： Warning messages: 1: In value[[3L]](c

浏览 11提问于2017-01-11得票数 2

1回答

使用Scala api触发数据帧到EdgeRDD (GraphX)

、、

有没有一种从Spark DataFrame到EdgeRDD的好方法，而不需要在Scala代码中硬编码类型？我见过的用例类定义了EdgeRDD的类型。让我们假设我们的Spark DataFrame有StructField、("dstID", LongType, false)和("srcID", LongType, false)，以及0到22个额外的StructField (我们对此进行了限制，以便可以使用TupleN来表示它们)。有没有一种通过从DataFrame中获取类型来定义EdgeRdd[TupleN]的干净方法？作为动机，考虑我们正在加载一个包含类型信息

浏览 1提问于2015-06-30得票数 0

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

对json和dataframe错误触发非json

、、

我有一个json类型的文件(不是真正的json结构)，但是我转换为json并通过spark (我们在Spark1.6.0中)读取，我还不能使用spark 2中的多行功能。它显示结果，但同时出错。任何帮助都非常感谢。我有这样的文件。仅举一个例子，但它是一个数组： $result = [ { 'name' => 'R-2018:1583', 'issue_date' => '2018-05-17 02:51:06',

浏览 2提问于2018-08-31得票数 1

1回答

拆分DataFrame Scala

、

浏览 0提问于2018-04-24得票数 0

回答已采纳

4回答

如何在HiveContext中设置hive.metastore.warehouse.dir？

、、

我正在尝试编写一个依赖于DataFrame.saveAsTable()的单元测试用例(因为它是由文件系统支持的)。我将配置单元仓库参数指向本地磁盘位置： sql.sql(s"SET hive.metastore.warehouse.dir=file:///home/myusername/hive/warehouse") 默认情况下，应启用metastore的嵌入式模式，因此不需要外部数据库。但是HiveContext似乎忽略了这个配置:因为我在调用saveAsTable()时仍然会遇到这个错误： MetaException(message:file:/user/hive/wa

浏览 4提问于2015-05-29得票数 8

1回答

从dataframe‘java.lang.IllegalArgumentException创建一个Hive表时出错:错误FS: file:/tmp/火花预期:hdfs://namervice1’

、、、、

我是新来的火花。我正在尝试开发一个应用程序，使用Spark1.6将json数据保存到一个Hive表中。这是我的代码： val rdd = sc.parallelize(Seq(arr.toString)) //arr is the Json array val dataframe = hiveContext.read.json(rdd) dataframe.registerTempTable("RiskRecon_tmp") hiveContext.sql("DROP TABLE IF EXISTS RiskRecon_TOES") hiveConte

浏览 7提问于2017-07-12得票数 0

回答已采纳

1回答

连接器不映射数据

、

我试图在星火应用程序中映射来自mongodb连接器的数据。在此之前，我没有其他错误，所以我假设到mongodb的连接是成功的。我使用以下代码来映射： JavaRDD<AppLog> logs = documents.map( new Function<Tuple2<Object, BSONObject>, AppLog>() { public AppLog call(final Tuple2<Object, BSONObject> tuple) { AppLog log = new AppLog();

浏览 5提问于2016-10-13得票数 1

回答已采纳

2回答

截断表后缓存的数据刷新

、

以下是几个步骤： scala> val df = sql("select * from table") df: org.apache.spark.sql.DataFrame = [num: int] scala> df.cache res13: df.type = [num: int] scala> df.collect res14: Array[org.apache.spark.sql.Row] = Array([10], [10]) scala> df res15: org.apache.spark.sql.DataFrame = [num:

浏览 0提问于2018-05-15得票数 2

回答已采纳

1回答

如何在.Net Spark中将数组列作为参数传递到VectorUdf中？

、、、、

我正在尝试在C# Spark中实现向量自定义函数。我已经通过Spark .Net创建了.Net Spark环境。在我的IntegerType专栏中，Vector Udf (Apache箭头和Microsoft.Data.Analysis都是)很好用。现在，尝试将Integer数组类型的列发送到Vector Udf，但找不到实现此目的的方法。用法 using System; using System.Linq; using Microsoft.Data.Analysis; using Microsoft.Spark.Sql; using func = Microsoft.Spark.Sql

浏览 17提问于2021-03-25得票数 6

2回答

SparkException:无法在分区数不等的情况下压缩RDD: List(2，1)

、、

复制的可能步骤：多次运行spark.sql，获取DataFrame list d1、d2、d3、d4 调用DataFrame list d1、d2、d3、d4到DataFrame d5，调用Dataset#unionByName 运行d5.groupBy("c1").pivot("c2").agg(concat_ws(", ", collect_list("value")))，生成DataFrame d6 DataFrame d6加入另一个DataFrame d7 调用像count这样的函数来触发火花作业

浏览 5提问于2021-12-08得票数 0

回答已采纳

1回答

java.lang.NoClassDefFoundError: com/databricks/spark/avro/package$

、、

我使用的火花1.3.0和火花-阿夫罗1.0.0。我的build.sbt文件看起来像 libraryDependencies ++=Seq( "org.apache.spark" % "spark-core_2.10" % "1.3.0" % "provided", "org.apache.spark" % "spark-sql_2.10" % "1.5.2" % "provided", "com.databricks" % "spa

浏览 3提问于2016-03-18得票数 1

回答已采纳