Java Spark :使用未知连接列名连接数据集的Spark Bug解决方法

、、

我在Java中使用Spark 2.3.1。注意: MyDataset1和MyDataset2是来自同一数据集MyDataset0的两个数据集，它们具有多个不同的转换。在Jir

浏览 10提问于2018-08-03得票数 3

回答已采纳

2回答

使用scala在Apache spark中连接不同RDDs的数据集

、、、、

有没有办法在spark中连接两个不同RDD的数据集？需求是-我使用scala创建了两个具有相同列名的中间RDDs，需要组合这两个RDDs的结果并缓存结果以访问UI。我如何在这里组合数据集？RDDs的类型为spark.sql.SchemaRDD

浏览 2提问于2014-12-10得票数 35

回答已采纳

1回答

星火中Oracle表之间的连接

、、

我需要在两个Oracle表之间做一个连接，然后通过Spark (用Java)处理数据。这样做的最佳选择是什么？-利用本机Oracle join功能，然后通过诸如"select * from table1，table2 where 1.fk= table2.pk“之类的查询在Spark中加载单个数据集或利用Spark连接功能加载2个不同的数据集</

浏览 0提问于2020-04-26得票数 0

回答已采纳

1回答

如何使用Spark从mariadb读取数据

、、、、

我需要使用从MariaDB读取一个表。import java.io.IOException;import java.util.Properties; import

浏览 1提问于2018-10-09得票数 1

1回答

Spark Dataset:如何在平面映射后更改列的别名？

、

我有两个spark数据集，我正在尝试加入。连接键是嵌套在数据集A中的，所以在连接数据集B之前，我必须首先将其平面化。问题是，一旦我平面化了该字段，列名就变成了默认的"_1“、"_2”等。

浏览 0提问于2017-10-05得票数 0

1回答

Scala : JniBasedUnixGroupsMapping:错误获取组:找不到用户名

、、、、

我一直用scala中的spark从本地系统连接到Hive (它在集群中)，最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中，并且能够连接到转移，但无法访问蜂窝表。线程“java.lang.NoClassDefFoundError:”中的异常: org/apache/tez/dag/api/SessionNotRunning at org.apache.had

浏览 2提问于2015-12-22得票数 0

回答已采纳

2回答

sparklyr- JAVA_HOME已设置，但未指向有效版本。

、、

我正在尝试使用sparklyr分析R中的大型数据集。在尝试与spark_connect建立Spark连接时，我收到以下错误： Error in get_java(throws = TRUE) : Java is required to connect toSpark.JAVA_HOME is set but does not point to a valid version.Please fix <

浏览 0提问于2018-10-16得票数 2

1回答

大数据( spark* sql和spark数据帧连接)*

、、

我是大数据平台的新手。您能告诉我不同的方法:1)我们如何连接到spark for Spark sql? 2)我们如何连接到spark数据帧或数据集？对于hive，我们通过unix与beeline连接，如果我们有像teradata这样的sql工具，我们必须通过安装了hive驱动的odbc连接到hive。如何连接到

浏览 13提问于2020-06-09得票数 0

1回答

使用java连接spark数据集

、、

我有两个数据集，我正在尝试合并： String machineID:Dataset2(car的列表carCat中。如果匹配将2个数据集组合为如下所示：machineID,machineCat(100),carID,carCat(100)mach

浏览 9提问于2020-05-07得票数 0

回答已采纳

1回答

SPARK java.lang.OutOfMemoryError:内存不足，无法构建表并将其广播到所有工作节点

、、、

我正在使用spark连接我从azure存储中获取的静态数据集和从eventhub中获取的流数据集。我还没有在任何地方使用过广播连接。在连接之后，我尝试了df.explain()，它显示排序合并连接正在发生。我不确定为什么我会收到与广播Hash join相关的错误。Exception in thread "spark-l

浏览 132提问于2019-12-23得票数 0

1回答

MongoDB & Spark: mongo-hadoop和mongo-spark的区别

、、、

mongo-hadoop和mongo-spark连接器有什么不同，pymongo只能和mango-hadoop一起使用吗？ pymongo只与mongo-hadoop一起使用吗？

浏览 2提问于2018-07-10得票数 0

1回答

使用spark中的hadoop配置连接到Hbase

、、、、

我正在尝试创建MapPartitionFunction的火花hbase连接。Caused by: java.io.NotSerializableException: org.apache.hadoop.conf.ConfigurationSparkConf.getOrCreate(); .create(hadoopConf); 我使用sparkSession来创建数据

浏览 6提问于2016-08-31得票数 0

1回答

MemSQL火花作业

、

我正在尝试使用MemSQL抽取器在Spark作业中读取一个CSV文件，并使用转换器进行一些充实，并使用Java加载到MemSQL数据库。我看到了memsql火花接口jar，但没有找到任何有用的Java文档或示例。 return bytes; //compilat

浏览 6提问于2015-12-10得票数 2

2回答

使用数据帧实现从Informix到Spark的JDBC

、、、

我可以使用简单的JDBC连接程序连接到Informix数据库，但是当我尝试使用Spark Dataframes加载表时，我遇到了一个异常。我们需要为Informix spark连接使用特定的连接器吗？下面是异常的堆栈跟踪： java.sql.SQLException: System or internal error java.

浏览 0提问于2016-01-26得票数 3

2回答

如何在几个列上合并两个数据文件？

、、、

我有两个数据c = a.join(b, on= ['q1', 'q2',

浏览 5提问于2019-11-11得票数 0

回答已采纳

1回答

java.lang.RuntimeException:编码时出错: java.lang.ArrayIndexOutOfBoundsException: 1

、、

当我尝试连接来自数据库和csv文件的两个数据集时，我遇到了一个错误，错误消息如下： org.apache.spark.SparkException: Job aborted due to stage: Error while encoding: java.lang.ArrayIndexOutOfBoundsException: 1 staticinvoke(class org.apache.spark.unsafe.types.UTF8String当<

浏览 23提问于2019-10-11得票数 2

1回答

Spark -不收集数据的数据集之间的迭代

、、、、

在代码的某个时刻，我有两个不同类型的数据集。我需要一个人的数据来过滤数据到另一个人。假设从这一点上没有办法改变代码，有没有办法在不从report2Ds收集所有数据并在Spark函数中使用它的情况下完成我在下面的注释中描述的事情？data from report2Ds where report2.getEmployeer().equals(company); }, kryo(Rep

浏览 14提问于2019-02-28得票数 1

回答已采纳

2回答

引用“”column_name“”不明确

、、、

我正在尝试对java spark数据集执行以下连接查询：+ "FULL OUTER我正在尝试ScheduledTaskTable和来自OpenTaskTable的记录之间的外连接，它具有due_date =‘某些值’，并且不存在于ScheduledTaskTable中。但是当我尝试运行上面的查询时，

浏览 0提问于2018-06-19得票数 0

1回答

sbt.ResolveException:未解析依赖: org.apache.spark#spark-core_2.11;2.1.2:未找到

、

我想使用spark 2.0中的连接组件algo。但是，sbt为0.13.15的打包出现了依赖错误。这背后的原因是什么？(FutureTask.java:262)at java.util.concurrent.FutureTask.run(FutureTask.

浏览 163提问于2018-06-21得票数 2

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

、、

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用scala在Apache spark中连接不同RDDs的数据集

星火中Oracle表之间的连接

如何使用Spark从mariadb读取数据

Spark Dataset:如何在平面映射后更改列的别名？

Scala : JniBasedUnixGroupsMapping:错误获取组:找不到用户名

sparklyr- JAVA_HOME已设置，但未指向有效版本。

大数据( spark* sql和spark数据帧连接)*

使用java连接spark数据集

SPARK java.lang.OutOfMemoryError:内存不足，无法构建表并将其广播到所有工作节点

MongoDB & Spark: mongo-hadoop和mongo-spark的区别

使用spark中的hadoop配置连接到Hbase

MemSQL火花作业

使用数据帧实现从Informix到Spark的JDBC

如何在几个列上合并两个数据文件？

java.lang.RuntimeException:编码时出错: java.lang.ArrayIndexOutOfBoundsException: 1

Spark -不收集数据的数据集之间的迭代

引用“”column_name“”不明确

sbt.ResolveException:未解析依赖: org.apache.spark#spark-core_2.11;2.1.2:未找到

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐