腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(76)
视频
沙龙
1
回答
如何将
现
有的
每小时
分区
合
并为
hive
中
的
每日
分区
、
、
、
、
我
的
要求是将现
有的
每小时
分区
合并到所有日期
的
每日
分区
。我
的
分区
列如下: 2019_06_22_00, 2019_06_22_01, 2019_06_22_02, 2019_06_22_03..., 2019_06_22_23 => 2019_06_22 2019
浏览 50
提问于2019-06-25
得票数 1
回答已采纳
1
回答
最近更新
的
单元
中
的
分区
在
Hive
中
是否有一种方法可以使所有
分区
在特定
的
时间()之后得到更新?我需要以这种方式识别所有
分区
都
浏览 1
提问于2018-05-22
得票数 0
1
回答
Bash命令以回填
Hive
表-使用更改日期变量运行多个
Hive
命令
、
、
试图找出一种方法来回填ds
分区
Hive
表
的
分区
。我想做
的
是提供一个不同DS
的
.txt文件,
并为
每个DS运行一个新
的
作业。$
HIVE
_HOME/bin/
hive
-e &
浏览 1
提问于2016-06-27
得票数 0
回答已采纳
1
回答
两个配置单元
分区
可以共享一组文件吗?
、
、
、
一个典型
的
问题是一个配置单元
分区
是否可以由多个文件组成。我
的
问题是相反
的
。多个配置单元
分区
可以指向同一个文件吗?我将从我
的
意思开始,然后是用例。
Hive
中
。/file/location/20120402/file1.tsv但是我们希望所有现
有的
<e
浏览 0
提问于2014-05-28
得票数 1
1
回答
分区
Hive
表加载速度慢
、
、
我在
Hive
中加载一个按日期
分区
的
表。它目前包含了大约3年
的
记录,因此大约有900个
分区
(即365*3)。这一切都很好,但是我注意到实际编写
分区</em
浏览 0
提问于2015-03-06
得票数 0
1
回答
HIVE
查询如何有效地找到以avro格式存储
的
数据?
、
、
、
我们有大量相对较小
的
传入文件用于分析,所有这些文件在可用列上都有细微
的
变化。我们正在将它们转换为avro格式,并跨所有数据文件维护一个主联合模式文件。然后,我们创建一个
HIVE
表,并将其公开以供查询。 我不禁觉得这张照片有些地方不对劲。查询如何能够识别要访问哪些单个文件或哪些文件来获取任何小数据子集?它不是要求每个查询都读取每个文件并搜索查询
的
数据吗?这似乎非常低效。一种选择是开始合并这些文件,但即使文件大小与Hadoop块大小完全相同,我们也会有大量文件。现在,我有了关于每个文件内容
的
完整信息。它们是通
浏览 0
提问于2016-04-09
得票数 0
1
回答
将PL/SQL ETL过程转换为HiveQL
、
、
、
、
我正在尝试用HiveQL翻译不同
的
PL/SQL脚本。但是,其中一个脚本给我带来了一些问题。下面是我
的
PL/SQL脚本: MERGE INTO KPI.THM_CA_R
浏览 0
提问于2013-06-25
得票数 1
1
回答
如何将
新数据追加到已存在
的
配置单元表
中
、
如何将
记录追加到已
有的
分区
Hive
表
中
?例如,我有一个名为"ip_country“
的
现有外部表,而dataset是testdata1。如果数据集增长,比如我第二天
的
数据集是testdata1和testdata2,那么
如何将
新数据,即"testdata2“附加到"ip_country”配置单元表
中
。
浏览 0
提问于2015-05-13
得票数 5
回答已采纳
1
回答
如何将
分区
添加到在Amazon
中
运行
的
Presto
中
的
分区
表
中
?
、
、
、
、
我已经在S3
中
以正确
的
分区
格式存在已存在
的
Parquet文件。use
hive
.default; select * from "mytable$partitions"
浏览 1
提问于2018-11-13
得票数 1
回答已采纳
2
回答
如何将
分区
添加到现
有的
Iceberg表
、
、
、
如何将
分区
添加到现
有的
未
分区
的
Iceberg表
中
?表已经装载了数据。创建了以下表:import org.apache.iceberg.catalog._ import org.apache.iceberg.spark.SparkSchemaUtil
浏览 6
提问于2020-03-11
得票数 3
2
回答
自动更新蜂巢视图日
、
、
、
我需要对从DB到
Hive
的
数据进行sqoop。因为这个数据每天都更新,所以我每天都在进行数据处理。 这些数据将用于查找火花使用者
的
数据,以便进行充实。我们希望保存我们收到
的
所有数据
的
历史记录,但是我们不需要所
有的
数据来查找最新
的
数据(同一天)。我想从历史表创建一个蜂巢视图,只显示当天插入
的
记录。是否有一种方法可以使视图每天自动化,以便视图查询始终拥有最新
的
数据?
浏览 0
提问于2019-08-05
得票数 2
回答已采纳
2
回答
索引大型mysql表
的
最佳方法是什么?
、
、
、
下面是表
的
create语句: `id` int(11) NOT NULL AUTO_INCREMENT, PARTITION pUnknown VALUES LESS THAN MAXVALUE ENGINE = InnoDB) */; 对此表运行
的
最常见查询为AND Time BETWEEN 'xxxx-xx-xx xx:xx:xx' AND 'xxxx-xx
浏览 3
提问于2018-01-17
得票数 0
1
回答
雅典娜:‘`msck修理表’会引起费用吗?
、
、
、
EMR作业,它将S3
中
的
原始JSON转换为ORC,
并为
雅典娜
的
摄入编写路径
分区
约定(上面)。在EMR作业完成后,我运行msck repair table,这样雅典娜就可以获得新
的
分区
。我有三个相关
的
问题: msck repair table可以超时。是否可以在数据管道
中
迈出一步,继续运行此命令,直到它成功完成为
浏览 4
提问于2017-03-16
得票数 5
1
回答
使用雅典娜查询S3
、
、
我有一个Kinesis Firehose摄取数据
的
设置,AWS Lambda执行数据转换并将传入数据放入S3存储桶
中
。S3结构是按年/月/日/小时/Messages.json组织
的
,所以我查询
的
所有实际json文件都是‘小时’级别的,所有年、月、日目录都只包含子目录。我
的
问题是,我需要运行一个查询来获取给定日期
的
所有数据。有没有一种简单
的
方法可以在'day‘目录级别查询并返回子目录
中
的
浏览 23
提问于2020-06-25
得票数 0
3
回答
尝试在Ubuntu上设置多个主
分区
我选择了“引导
分区
”,
并为
Ext4日志文件系统创建了一个30 on
的
主
分区
,为格式
分区
设置了"yes,格式化它“,并将可引导标志设置为on。我打算使用这个30g
分区
来保存ubuntu服务器,并允许我从它启动。 现在我有了另外两个
分区
。可引导标志仅在主
分区
上有用”)。更令人担忧
的
是,它说“在这个
分区
中
没有检测到任何现
有的
文件系统”。实际上,我认为这是应该保持我目前
的
浏览 0
提问于2012-10-18
得票数 0
1
回答
如何从单元
中
现有
分区
合并小文件?
、
、
、
、
如何将
现
有的
分区
小文件合
并为
分区
中
的
一个大文件。它会给出如下
的
结果BB BBB 20170201 基于上面的表,我希望将所
浏览 5
提问于2017-02-07
得票数 1
3
回答
Ubuntu,Wubi和Windows 7
的
并行安装?
、
、
、
因为我想在不松开Windows 7配置
的
情况下尝试Ubuntu,所以我在Windows 7
中
安装了Ubuntu
的
Wubi版本。由于Ubuntu和我
的
硬盘空间非常有限,所以我想让Ubuntu成为这台机器上唯一
的
操作系统。所以我
的
问题是: 是否可能在我
的
实际配置之外安装Ubuntu11.04(武比和Windows 7)?如果Ubuntu
的
本机安装结果也很好,那么以后从我
的
系统
中
删除Wubi和Windows 7呢?为什么我
浏览 0
提问于2011-06-04
得票数 2
回答已采纳
2
回答
将新数据追加到已
分区
的
拼图文件
、
、
、
我正在编写一个ETL进程,我需要
每小时
读取一次日志文件,对数据进行
分区
,然后保存它。我正在使用Spark (在Databricks
中
)。日志文件是CSV,所以我读取它们并应用模式,然后执行转换。我
的
问题是,
如何将
每个小时
的
数据保存为拼图格式,并附加到现
有的
数据集?保存时,我需要按数据帧
中
存在
的
4列进行
分区
。如果目标不存在,那么我不会附加我
的
文件。 我尝试过使用.mode("append&q
浏览 0
提问于2016-01-22
得票数 18
1
回答
如何在
Hive
生成
的
平面文件上运行特殊
的
SQL查询?
、
、
、
、
我们使用
Hive
分析日志数据,并将聚合结果存储在S3上
的
每日
分区
文本字段
中
(让我们称它们为“粗”聚合)。这些聚合结果相当小(每天不超过几MB ),我们有一个Javascript仪表板来加载和可视化这些数据
的
某些方面(让我们称之为“细粒度”聚合)。A)我们可以在蜂巢中生成所
有的
“细粒度”聚合。然而,在蜂巢
中
对这些小数据集进行操作需要很长时间。 B)我们可以在S3和Javascript之间引入一个“快速访问层”,可以运行S3查询。您推荐什么样
的</
浏览 1
提问于2015-05-04
得票数 3
2
回答
将LAMP应用程序连接到EC2
、
、
、
关于
如何将
LAMP堆栈移植到Ec2,有什么好
的
参考资料吗?总结:我应该从哪里开始?
浏览 0
提问于2009-09-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hive 原理实践
【挑战30万年薪】Hive语句详解之DML操作【元数据存储】
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
【挑战30万年薪】Hive语句详解之从SQL到HQL的应转习惯
大数据入门基础系列之浅谈Hive的分区表
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券