SPARK to ELASTIC SEARCH程序抛出异常，不支持追加输出模式

、、、

我在windows上运行下面的代码，它抛出了一个错误，不能工作。zk，kafka，elasticsearch所有的服务器都在运行。数据已经发布到kafka主题 def main(args: Array[String]): Unit = { .config("es.index.auto.create","true")

浏览 37提问于2018-07-31得票数 0

2回答

火花流dropDuplicates

、、、

我使用追加模式，因为数据只是通过spark.sql()方法被充实/过滤，没有按/窗口聚合分组。然后，我使用附加模式将拼花文件写入s3。但是，这与错误失败：这个错误看起来很奇怪，因为我没有进行聚合(由于今天是7月24日

浏览 1提问于2017-07-24得票数 1

回答已采纳

2回答

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。 url = "jdbc:mysql://hostname/myDB?我尝试过不同的模式(追加、覆盖) DataFrameWriter.jdbc()函数。

浏览 4提问于2015-09-16得票数 12

2回答

如何将流数据写入S3？

、、、、

我找到了，其中使用了库spark-s3。其想法是创建SparkContext，然后创建SQLContext。文章的作者做了这样的事情： rdd.toDF().write .option("fileType","json") .sa

浏览 0提问于2016-10-10得票数 3

回答已采纳

2回答

Databricks to_avro只在没有指定事件名称和命名空间的情况下注册架构时才能工作。

、、、、

我使用的是databricks运行时10.0和Spark3.2.0和Scala2.12。我还依赖于io.confluent:kafka-schema-registry-client:6.2.0，，使用CachedSchemaRegistryClient在模式注册表中注册模式，如下所示：val schema = toAvroType(dataframe.schema, true, "some_name", "com.some

浏览 5提问于2022-03-03得票数 1

回答已采纳

1回答

将csv列中的空值视为空数据类型的火花

我的spark应用程序读取csv文件，用sql将其转换为不同的格式，并将结果数据写入不同的csv文件。PrimaryLocationId,from Input (我无法回答为什么使用null作为SecondaryLocationId，它是业务用例)现在spark无法确定SecondaryLocationId的数据类型并在模式中返回null，并抛出错误CSV数据源在写入输出csv时不支持空数据类型。

浏览 1提问于2017-09-27得票数 6

回答已采纳

2回答

如何阻止hibernate搜索嗅探不存在的本地弹性搜索服务器的节点？

、、

我尝试过设置字段hibernate.search.backend.hosts和hibernate.search.backend.protocol，而不是.uris。hibernate.search.backend.aws.credentials.access_key_id", awsId); jpaProperties

浏览 31提问于2022-07-20得票数 0

回答已采纳

3回答

Spark action坚持使用EOFException

我正在尝试执行一个带有卡住的Spark的动作。相应的执行器抛出以下异常： 2019-03-06 11:18:16 ERROR Inbox:91 - Ignoring errorat java.io.DataInputStream.readFully)at org.apache.spark.rpc.netty.Dispatcher集群，使用

浏览 33提问于2019-03-06得票数 2

回答已采纳

2回答

卡桑德拉依赖关系问题:未找到CassandraJavaUtil

我试着启动一个小应用程序，它只读取cassandra数据库中的一个表。推出的应用程序与火花-子： /opt/spark/bin/spark提交-类com.baitic.mcava.pruebacassandra.PruebaCassandraBBDD -主火花1G /home/miren/NetBeansProjects/PruebaCassandra/target/original-PruebaCassandr

浏览 2提问于2016-02-25得票数 0

2回答

火花结构流水印错误

、、

在没有水印的流式DataFrames/数据集上有流聚合时，不支持线程“主”org.apache.spark.sql.AnalysisException:追加输出模式的异常；；EventTimeWatermark

浏览 0提问于2018-11-02得票数 4

回答已采纳

5回答

如何在spark中使用parquet读写相同的文件？

、、

我试图从spark中的一个拼图文件中读取，与另一个rdd进行联合，然后将结果写入我从其中读取的相同文件中(基本上是覆盖)，这会抛出以下错误： at org.apache.spark.rdd.RDDOperationScope:130) at org.apache.

浏览 0提问于2016-05-06得票数 8

7回答

如何覆盖spark中的输出目录

我有一个spark streaming应用程序，它每分钟都会生成一个数据集。我需要保存/覆盖处理数据的结果。我设置了Spark属性set("spark.files.overwrite","true")，但是没有成功。如何覆盖或预删除spark中的文件？

浏览 271提问于2014-11-20得票数 124

回答已采纳

5回答

读取地块文件时刷新Dataframe的元数据

、、、

你可以通过在SQL中运行'REFRESH TABLE tableName‘命令或者重新创建相关的Dataset/DataFrame来显式地使Spark中的缓存无效。我使用的是Spark 2.2 有人能帮我刷新元数据吗？

浏览 1提问于2019-11-08得票数 4

3回答

为什么RDD.map中的代码没有在纱线中执行？

、

我spark-submit成纱(有16 to内存和4芯)。rdd2 = rdd1.map { rec => (rec.split(",")(0), rec) } rec似乎没有传递给transformations.transform

浏览 0提问于2018-03-27得票数 4

回答已采纳

4回答

为什么抛出异常的速度这么慢？

、、、

他们告诉我们不要使用异常来控制程序的流，因为抛出异常很慢。我从来没有听过任何解释，为什么抛出例外的速度这么慢。一些澄清:我想知道操作系统需要哪些额外的工作来处理抛出的异常。在用户模式和内核模式之间是否存在一些转换，这是非常昂贵的？或者可能构建异常对象的代价很高？或者，也许有什么与交换程序<

浏览 0提问于2013-06-29得票数 2

回答已采纳

1回答

错误与第一()步中的火花

、

$.writeUTF(PythonRDD.scala:622) at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedulerat org.apache.spark.util.EventLoop$$anon$1

浏览 1提问于2016-05-20得票数 1

回答已采纳

2回答

EJB拦截器和事务生命周期或如何拦截提交/失败事件？

、、、

我有一个EJB拦截器，我遵循Adam Bien建议的BCE模式，也就是说，边界上的所有EJB调用都启动并完成了一个事务，这意味着没有嵌套的EJB调用(虽然可能有嵌套的CDI注入Bean调用，但这些调用应该在

浏览 0提问于2015-03-02得票数 2

回答已采纳

9回答

在Zeppelin0.7.1中运行Spark代码时获取NullPointerException

、

当我尝试执行示例spark程序(在Zeppelin Tutorial notebook中提供)时，我得到了以下错误 at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark

浏览 2提问于2017-04-08得票数 17

3回答

输出flles在Java中不断得到ovewritten

、、、、

每次程序运行结束时，我都会调用写入要追加的已保存数据的函数。最终发生的情况是，它覆盖了上次保存的数据。我还有其他处理该文本文件的代码块，对它们的改造也没有做任何事情。

浏览 1提问于2013-02-10得票数 0

1回答

火花抛出错误:向FileNotFoundException写入数据帧时的S3

、、

，，我们有一个数据帧，我们想要以拼花格式和覆盖模式写到s3。每次写数据时，总是一个新文件夹。how位置(意味着没有人从这个位置读取)时，；为什么编写程序会抛出下面的s3来修复它？--我看到几个堆栈溢出指向这个异常。但他们说，当你尝试阅读时，当写作发生时，就会发生这种情况。scalaI 我的火花是2.3.2；EMR-5.18.1；代码是用s3://作为输出文件夹路径用s3://编写的。我应该把它换成s3n或s3a吗？这有用吗？at org.apache.spa

浏览 9提问于2022-11-14得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

火花流dropDuplicates

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

如何将流数据写入S3？

Databricks to_avro只在没有指定事件名称和命名空间的情况下注册架构时才能工作。

将csv列中的空值视为空数据类型的火花

如何阻止hibernate搜索嗅探不存在的本地弹性搜索服务器的节点？

Spark action坚持使用EOFException

卡桑德拉依赖关系问题:未找到CassandraJavaUtil

火花结构流水印错误

如何在spark中使用parquet读写相同的文件？

如何覆盖spark中的输出目录

读取地块文件时刷新Dataframe的元数据

为什么RDD.map中的代码没有在纱线中执行？

为什么抛出异常的速度这么慢？

错误与第一()步中的火花

EJB拦截器和事务生命周期或如何拦截提交/失败事件？

在Zeppelin0.7.1中运行Spark代码时获取NullPointerException

输出flles在Java中不断得到ovewritten

火花抛出错误:向FileNotFoundException写入数据帧时的S3

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐