将Spark DF作为列插入现有配置单元表中

、、

我正在寻找一种方法来将列spark DF附加到现有的Hive表中，我正在使用下面的代码来覆盖该表，但只有当df模式和hive表模式相等时才有效，但有时我需要添加一列，因为模式不匹配，所以它不起作用。有没有一种方法可以将df附加为列？或者我必须让ALTER TABLE在spark.sql()中添加列</

浏览 21提问于2021-10-25得票数 0

1回答

PySpark -保存配置单元表- org.apache.spark.SparkException:无法识别配置单元类型字符串

、、

我正在将spark数据帧保存到hive表中。spark dataframe是一个嵌套的json数据结构。我可以将数据帧另存为文件，但它在上面创建了一个配置单元表时失败了，上面写着org.apache.spark.SparkException: Cannot recognize hive type string我不能先创建一个hive表模式，然后再将其插入其中，因为数据框由数百个嵌套

浏览 1提问于2018-08-11得票数 2

1回答

虽然表存在，但未找到配置单元表或视图

、、

我正在尝试在spark集群上运行一个用Java编写的Spark作业，将记录作为dataframe加载到我创建的Hive Table中。df.write().mode("overwrite").insertInto(dbname.tablename); 尽管表和数据库存在于配置单元中，但它抛出下面的错误: org.apache.spark.sql.AnalysisException

浏览 13提问于2019-10-22得票数 0

11回答

如何将DataFrame直接保存到Hive？

、、、

有没有可能将spark中的DataFrame直接保存到Hive？我尝试过将DataFrame转换为Rdd，然后保存为文本文件，然后加载到hive中。

浏览 1提问于2015-06-05得票数 93

1回答

星星之火2.0+，即使数据被缓存，如果它的一个源更改，它会重新计算吗？

、、、

拥有多个源( df1 to df4 )，df3表示现有的单元表将df5保存到另一个位置。这是否意味着在第三步之后，df3会改变？我已经为df1到<e

浏览 1提问于2018-12-18得票数 4

2回答

从星火看saveAsTable

、、

我们试图从SPARK中写入一个蜂箱表，并且使用saveAsTable函数。我想知道saveAsTable是否每次掉落并重新创建蜂巢表？如果它这样做了，那么是否还有其他可能的火花函数实际上只会截断和加载一个表，而不是拖放和重新创建。

浏览 0提问于2018-07-17得票数 2

回答已采纳

1回答

我在配置单元控制台/ .hiverc文件中使用了以下属性，以便每当我查询该表时，它都会更新配置单元元存储的TBLS表中的LAST_ACCESS_TIME列。set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec; 但是，如果我使用spark-sql或spark-shell，它似乎无

浏览 1提问于2020-02-25得票数 5

2回答

通过sparkSQL创建蜂窝

、、、

我对蜂巢中的扣环有一个疑问。我已经创建了一个临时表，该表在列关键字上存储桶。当我检查这个表的基目录时，它显示了前缀为part_*的文件名。但是，当我通过另一个表手动将数据插入到这个表

浏览 1提问于2018-08-02得票数 5

3回答

将分区数据插入分区的配置单元表中

、、、

我已经使用Pig Multistorage将数据存储在hdfs中，并使用列id。因此数据存储为/output/2/现在，我已经在hive中创建了一个分区表，我想将/output文件夹中的数据加载到这个分区表中。

浏览 0提问于2015-10-29得票数 0

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functi

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

如何从一个位置读取表并将数据写入其他集群的表

、

我从设置hive.metastore.uris的metastore启动spark应用程序中读取表统计数据。但是，我需要将数据写入另一个配置单元。我已经尝试清理活动会话和默认会话，使用新的metastore uri构建另一个会话，但spark继续尝试写入第一个hive的表。")

浏览 9提问于2019-04-11得票数 0

1回答

在配置单元中覆盖更新后的数据帧列值失败

、

考虑具有列aid和bid的配置单元表tbl | aid | bid || | 12 || 18 | 3= spark.sql("select * from db.tbl") val df02 = df01.withColumn("aid", when(col("aid").isNull || col("aid

浏览 11提问于2020-06-12得票数 0

1回答

如何将spark数据帧与Databricks Deltalake上的hive表合并？

、、

浏览 19提问于2021-10-19得票数 1

回答已采纳

1回答

在配置单元中更改表(插入新数据)时，将此记录插入到新数据的时间

、

浏览 21提问于2019-05-11得票数 0

1回答

pyspark 1.3.0将数据帧保存到配置单元表中

、、

我正在使用spark 1.3.0 (在python)DF.show(3) 我正在尝试将该DF保存到不存在配置单元表中我将</

浏览 0提问于2017-01-20得票数 0

1回答

要将应用程序从Spark1.5迁移到Spark2.1，我需要做哪些更改？

、

我必须迁移到Spark2.1，这是一个使用Spark1.6用Scala2.10.4编写的应用程序。我成功地用Scala2.11重新编译了spark2中的应用程序，但由于Kryo序列化程序注册

浏览 1提问于2019-01-31得票数 0

回答已采纳

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile"scala >val sqlC

浏览 3提问于2016-01-20得票数 1

2回答

通过Spark将csv文件加载到现有配置单元故事中

、、、、

下面是我编写的代码，用于连接到关系数据库管理系统，然后创建临时表，在该临时表上执行SQL query，通过databricks模块将SQL查询输出保存为.csv格式。("test") df1.write.format("com.databricks.spark.csv",format= 'csv',

浏览 30提问于2017-12-22得票数 0

回答已采纳

2回答

Spark SQL saveAsTable返回空结果

、、、、

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： .builder() .master("local[2]") .config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse&qu

浏览 3提问于2017-02-27得票数 3

1回答

如何在重用现有表架构的情况下，只向单元表插入一些字段？

、、、

我已经有了一个hive表，它是在测试之前创建的，例如它有列A(String type)、B(String)、C(Number)。在测试用例中，我只想插入测试数据，稍后将查询这些数据，例如在A，B列中。将只包含A和B列数据的测试数据插入到包含diff模式的现有表中的最佳方法是什么？val df = session.createDataFrame(

浏览 0提问于2019-08-27得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark -保存配置单元表- org.apache.spark.SparkException:无法识别配置单元类型字符串

虽然表存在，但未找到配置单元表或视图

如何将DataFrame直接保存到Hive？

星星之火2.0+，即使数据被缓存，如果它的一个源更改，它会重新计算吗？

从星火看saveAsTable

配置单元元存储中的上次访问时间更新

通过sparkSQL创建蜂窝

将分区数据插入分区的配置单元表中

使用检查点从胞表读取和更新同一个表

如何从一个位置读取表并将数据写入其他集群的表

在配置单元中覆盖更新后的数据帧列值失败

如何将spark数据帧与Databricks Deltalake上的hive表合并？

在配置单元中更改表(插入新数据)时，将此记录插入到新数据的时间

pyspark 1.3.0将数据帧保存到配置单元表中

要将应用程序从Spark1.5迁移到Spark2.1，我需要做哪些更改？

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

通过Spark将csv文件加载到现有配置单元故事中

Spark SQL saveAsTable返回空结果

如何在重用现有表架构的情况下，只向单元表插入一些字段？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐