腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
Spark
DF
作为
列
插入
现有
配置
单元
表
中
、
、
我正在寻找一种方法来
将
列
spark
DF
附加到
现有
的Hive
表
中
,我正在使用下面的代码来覆盖该
表
,但只有当
df
模式和hive
表
模式相等时才有效,但有时我需要添加一
列
,因为模式不匹配,所以它不起作用。有没有一种方法可以
将
df
附加为
列
? 或者我必须让ALTER TABLE在
spark
.sql()
中
添加
列</
浏览 21
提问于2021-10-25
得票数 0
1
回答
PySpark -保存
配置
单元
表
- org.apache.
spark
.SparkException:无法识别
配置
单元
类型字符串
、
、
我正在
将
spark
数据帧保存到hive
表
中
。
spark
dataframe是一个嵌套的json数据结构。我可以
将
数据帧另存为文件,但它在上面创建了一个
配置
单元
表
时失败了,上面写着org.apache.
spark
.SparkException: Cannot recognize hive type string我不能先创建一个hive
表
模式,然后再将其
插入
其中,因为数据框由数百个嵌套
浏览 1
提问于2018-08-11
得票数 2
1
回答
虽然
表
存在,但未找到
配置
单元
表
或视图
、
、
我正在尝试在
spark
集群上运行一个用Java编写的
Spark
作业,
将
记录
作为
dataframe加载到我创建的Hive Table
中
。
df
.write().mode("overwrite").insertInto(dbname.tablename); 尽管
表
和数据库存在于
配置
单元
中
,但它抛出下面的错误: org.apache.
spark
.sql.AnalysisException
浏览 13
提问于2019-10-22
得票数 0
11
回答
如何
将
DataFrame直接保存到Hive?
、
、
、
有没有可能将
spark
中
的DataFrame直接保存到Hive? 我尝试过
将
DataFrame转换为Rdd,然后保存为文本文件,然后加载到hive
中
。
浏览 1
提问于2015-06-05
得票数 93
1
回答
星星之火2.0+,即使数据被缓存,如果它的一个源更改,它会重新计算吗?
、
、
、
拥有多个源(
df
1 to
df
4 ),
df
3表示
现有
的
单元
表
将
df
5保存到另一个位置。这是否意味着在第三步之后,
df
3会改变?我已经为
df
1到<e
浏览 1
提问于2018-12-18
得票数 4
2
回答
从星火看saveAsTable
、
、
我们试图从
SPARK
中
写入一个蜂箱
表
,并且使用saveAsTable函数。我想知道saveAsTable是否每次掉落并重新创建蜂巢
表
?如果它这样做了,那么是否还有其他可能的火花函数实际上只会截断和加载一个
表
,而不是拖放和重新创建。
浏览 0
提问于2018-07-17
得票数 2
回答已采纳
1
回答
配置
单元
元存储
中
的上次访问时间更新
、
、
、
我在
配置
单元
控制台/ .hiverc文件中使用了以下属性,以便每当我查询该
表
时,它都会更新
配置
单元
元存储的TBLS
表
中
的LAST_ACCESS_TIME
列
。set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec; 但是,如果我使用
spark
-sql或
spark
-shell,它似乎无
浏览 1
提问于2020-02-25
得票数 5
2
回答
通过sparkSQL创建蜂窝
、
、
、
我对蜂巢
中
的扣环有一个疑问。我已经创建了一个临时
表
,该
表
在
列
关键字上存储桶。当我检查这个
表
的基目录时,它显示了前缀为part_*的文件名。但是,当我通过另一个
表
手动
将
数据
插入
到这个
表
浏览 1
提问于2018-08-02
得票数 5
3
回答
将
分区数据
插入
分区的
配置
单元
表
中
、
、
、
我已经使用Pig Multistorage
将
数据存储在hdfs
中
,并使用
列
id。因此数据存储为/output/2/现在,我已经在hive
中
创建了一个分区
表
,我想将/output文件夹
中
的数据加载到这个分区
表
中
。
浏览 0
提问于2015-10-29
得票数 0
1
回答
使用检查点从胞
表
读取和更新同一个
表
、
、
我正在使用
spark
版本2.3,并试图
将
spark
中
的蜂巢
表
读取为:from pyspark.sql.functions import*在这里,我添加了一个新
列
,其中包含了从system到
现有
的dataframe的当前日期 import pyspark.sql.functi
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
1
回答
如何从一个位置读取
表
并将数据写入其他集群的
表
、
我从设置hive.metastore.uris的metastore启动
spark
应用程序
中
读取
表
统计数据。但是,我需要将数据写入另一个
配置
单元
。我已经尝试清理活动会话和默认会话,使用新的metastore uri构建另一个会话,但
spark
继续尝试写入第一个hive的
表
。")
浏览 9
提问于2019-04-11
得票数 0
1
回答
在
配置
单元
中
覆盖更新后的数据帧
列
值失败
、
考虑具有
列
aid和bid的
配置
单元
表
tbl | aid | bid || | 12 || 18 | 3=
spark
.sql("select * from db.tbl") val
df
02 =
df
01.withColumn("aid", when(col("aid").isNull || col("aid
浏览 11
提问于2020-06-12
得票数 0
1
回答
如何
将
spark
数据帧与Databricks Deltalake上的hive
表
合并?
、
、
hive
表
: val
df
2 =
spark
.sql("select * from db.table") 从传入的数据帧
df
1
中
,我获得了两条新记录和两条更新记录。|Michael| Sales| 56| Junior| +-------+-------+---+----------+ 这里使用的密钥是:dept & id 在我之前的一个项目中,我们曾经
将
传入的数据帧与临时
表
中
的Hive
表
的分区连接
浏览 19
提问于2021-10-19
得票数 1
回答已采纳
1
回答
在
配置
单元
中
更改
表
(
插入
新数据)时,将此记录
插入
到新数据的时间
、
配置
单元
表示例: id|year2|2010 但是我需要
插入
新
列
的时间,比如: id|year|updateddate 1|1990|olddatatimestamp甚至有兴趣知道这在
spark
-scala
中
是如何做到的(特别是在
DF
/RDD
中
)。 谢谢
浏览 21
提问于2019-05-11
得票数 0
1
回答
pyspark 1.3.0
将
数据帧保存到
配置
单元
表
中
、
、
我正在使用
spark
1.3.0 (在python)
DF
.show(3) 我正在尝试将该
DF
保存到不存在
配置
单元
表
中
我
将</
浏览 0
提问于2017-01-20
得票数 0
1
回答
要将应用程序从
Spark
1.5迁移到
Spark
2.1,我需要做哪些更改?
、
我必须迁移到
Spark
2.1,这是一个使用
Spark
1.6用Scala2.10.4编写的应用程序。 我成功地用Scala2.11重新编译了
spark
2
中
的应用程序,但由于Kryo序列化程序注册
浏览 1
提问于2019-01-31
得票数 0
回答已采纳
2
回答
我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“
、
、
、
、
我通过在我的数据帧上调用.saveAsTable创建了一个
Spark
SQL
表
。该命令完全成功。但是,现在当我查询
表
时,拼图文件似乎已损坏。java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile"scala >val sqlC
浏览 3
提问于2016-01-20
得票数 1
2
回答
通过
Spark
将
csv文件加载到
现有
配置
单元
故事
中
、
、
、
、
下面是我编写的代码,用于连接到关系数据库管理系统,然后创建临时
表
,在该临时
表
上执行SQL query,通过databricks模块
将
SQL查询输出保存为.csv格式。("test")
df
1.write.format("com.databricks.
spark
.csv",format= 'csv',
浏览 30
提问于2017-12-22
得票数 0
回答已采纳
2
回答
Spark
SQL saveAsTable返回空结果
、
、
、
、
我使用以下代码在
Spark
SQL
中
创建/
插入
数据到Hive
表
中
: .builder() .master("local[2]") .config("
spark
.sql.warehouse.dir", "file:///tmp/
spark
-warehouse&qu
浏览 3
提问于2017-02-27
得票数 3
1
回答
如何在重用
现有
表
架构的情况下,只向
单元
表
插入
一些字段?
、
、
、
我已经有了一个hive
表
,它是在测试之前创建的,例如它有
列
A(String type)、B(String)、C(Number)。在测试用例
中
,我只想
插入
测试数据,稍后
将
查询这些数据,例如在A,B
列
中
。
将
只包含A和B
列
数据的测试数据
插入
到包含diff模式的
现有
表
中
的最佳方法是什么?val
df
= session.createDataFrame(
浏览 0
提问于2019-08-27
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【Excel表格制作教程】excel工作表行列操作
对比:用两种ML包构建用户流失预警模型,有何异同?
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
盘点一个Pandas处理Excel表格实战问题(上篇)
GitHub标星2400,Netflix开源笔记本工具Polynote
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券