Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。
GROUPING SETS 是 SQL 中 GROUP BY 子句的扩展功能,它的核心作用是:在一次查询中同时执行多个不同维度的分组统计,最后将所有分组的结果合...
物化视图是数据库中的一种特殊对象,它存储了查询结果的物理副本,与普通视图(只保存查询定义)不同。
视图是从一个或多个表(或其他视图)导出的虚拟表。它本身不包含实际的数据,而是根据定义它的查询语句从相关的表中动态检索数据。可以将视图理解为一个存储起来的查询,查...
中国的企业软件产业正处在一个“多重压力交汇”的关键十字路口。表面上看,是“白嫖文化”、开源冲击、外包盛行、招标机制扭曲、数科公司挤压、AI颠覆等外部力量在“摧毁...
关联字段可无损转换时(如int转string) 2.添加随机数分散Key 对倾斜字段添加随机后缀再关联
最近在xxl_job部署shell调度任务时,发现在编写Hql时,对一些使用关键字命名的字段无法解析,按开发规范,字段命名不应该有关键字,但是数...
当手动删除HDFS 分区数据时,但是并没有清理 Hive 中的分区元数据,删除操作无法自动更新hive分区表元数据。也就是从hdfs中删除大量分...
集群使用ambari+hdp方式进行部署,集群的相关版本号如下所示:
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。...
今天在做数据导入时,发现有几个异常分区。因为异常分区影响到BI端数据报表展示。所以需要删除;
1.全局排序(Order By) Order By:全局排序,一个Reducer ASC(ascend):升序(默认) DESC(descend):降序 ...
1.产生条件 (1)省略连接条件 (2)连接条件无效 (3)所有表中的所有行相互连接 案例实操
大多数情况下,Hive 会对每对 JOIN 连接对象启动一个 MapReduce 任务。本例中会首先启动一个 MapReduce job 对表 e 和表 d 进...
6.清除表中数据(Truncate) 注意:Truncate 只能删除管理表,不能删除外部表中数据
对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存...
2.查询后信息显示配置 1)在 hive-site.xml 文件中添加如下配置信息,就可以实现显示当前数据库,以及查询 表的头信息配置。
3.查看在 hive 中输入的所有历史命令 (1)进入到当前用户的根目录/root 或/home/hadoop (2)查看. hivehistory 文件
Exception in thread “main” java.lang.RuntimeException: java.lang.RuntimeExcepti...