首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Apache Hive中,具有大量外部表的数据库需要很长时间才能删除级联

。这是因为在删除数据库时,Hive会递归删除数据库中的所有表,而对于外部表来说,删除操作涉及到删除表的元数据以及底层存储中的数据。

具体来说,删除外部表的过程包括以下几个步骤:

  1. 删除表的元数据:Hive会删除表的元数据信息,包括表的结构、分区信息、表的属性等。这个操作相对较快,通常不会花费太多时间。
  2. 删除底层存储中的数据:对于外部表来说,数据存储在外部的文件系统(如HDFS)或对象存储(如S3)中。删除表时,Hive会尝试删除底层存储中与表相关的数据文件。如果表的数据量很大,删除操作可能会非常耗时,特别是在删除大量外部表的情况下。

由于删除外部表涉及到删除底层存储中的数据,这个过程可能会非常耗时,尤其是当数据库中有大量外部表时。因此,如果需要删除具有大量外部表的数据库,建议采取以下措施来加快删除操作的速度:

  1. 批量删除:可以通过编写脚本或使用Hive的命令行工具批量删除外部表,而不是逐个手动删除。这样可以减少删除操作的耗时。
  2. 并行删除:可以同时删除多个外部表,以提高删除操作的效率。可以使用Hive的并行执行功能或者使用多线程的方式来实现并行删除。
  3. 调整底层存储的配置:如果底层存储使用的是HDFS,可以调整HDFS的配置参数来提高删除操作的性能。例如,增加NameNode的内存、调整数据块的大小等。

总结起来,删除具有大量外部表的数据库在Apache Hive中可能需要很长时间,特别是涉及到删除底层存储中的数据时。为了加快删除操作的速度,可以采取批量删除、并行删除和调整底层存储配置等措施。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla架构原理第 4 部分 Impala使用

Impala使⽤服务⽅式避免 每次执⾏查询都需要启动开销,即相⽐ Hive没了MR启动时间。 * 使⽤LLVM(C++编写编译器)产⽣运⾏代码,针对特定查询⽣成特定代码。...Impalasql语法是⾼度集成了Apache Hivesql语法,Impala⽀持Hive⽀持数据类型以及部分Hive 内置函数。 * 需要注意⼏点: 1....如果我们使⽤此⼦句,则只有没有具有相同名称现有数 据库时,才会创建具有给定名称数据库。 ?...删除数据库 ImpalaDROP DATABASE语句⽤于从Impala删除数据库删除数据库之前,建议从中删除所有 。 如果使⽤级联删除,Impala会在删除指定数据库之前删除它。...drop database sample cascade; 2.2 特定语句 1. create table语句 CREATE TABLE语句⽤于Impala所需数据库创建新

1K10

数据仓库之Hive快速入门 - 离线&实时数仓架构

执行计划生成过程动态优化方式 ---- Hive基本使用()内部/外部/分区/分桶 内部: 和传统数据库Table概念类似,对应HDFS上存储目录,删除时,删除元数据和数据...内部数据,会存放在HDFS特定位置,可以通过配置文件指定。当删除时,数据文件也会一并删除。适用于临时创建中间外部: 指向已经存在HDFS数据,删除时只删除元数据信息。...我们都知道关系型数据库基本是使用行式存储作为存储格式,而大数据领域更多是采用列式存储,因为大数据分析场景通常需要读取大量行,但是只需要少数几个列。...这就要求底层数据库为这个特点做专门设计,而不是盲目采用传统数据库技术架构。 大宽,读大量行但是少量列,结果集较小 OLAP场景,通常存在一张或是几张多列大宽,列数高达数百甚至数千列。...相比于行式存储,列式存储分析场景下有着许多优良特性: 如前所述,分析场景往往需要大量行但是少数几个列。

4.2K51
  • Kettle构建Hadoop ETL实践(四):建立ETL示例模型

    我们可以创建一个外部指向这份数据,而并不需要对其具有所有权。(2)外部 我们来看一个Hive文档中外部例子。...外部方便对已有数据集成。 因为外部,所以Hive并不认为其完全拥有这个数据。在对外部执行删除操作时,只是删除掉描述元数据信息,并不会删除数据。...和非分区外部一样,Hive并不控制数据,即使删除,数据也不会被删除。 本示例Hive均为普通非分区管理,这出于两点考虑。...不允许从一个非ACID会话读写事务。换句话说,会话锁管理器变量必须设置成org.apache.hadoop.hive.ql.lockmgr.DbTxnManager,才能与事务一起工作。...在这个场景,源数据库就是操作型系统模拟。我们MySQL建立源数据库。RDS存储原始数据,作为源数据到数据仓库过渡,Hive建RDS库

    2K11

    Hive3查询基础知识

    Hive支持“优化行列”(ORC)格式最大支持300PB。还支持其他文件格式。您可以创建类似于传统关系数据库。您可以使用熟悉插入、更新、删除和合并SQL语句来查询数据。...查询information_schema数据库 Hive支持ANSI标准information_schema数据库,您可以数据库查询有关、视图、列和Hive特权信息。...您可以使用UPDATE语句修改已经存储Apache Hive数据。...临时数据仅在当前Apache Hive会话期间持续存在。Hive会话结束时删除。如果使用永久名称来创建临时,则在会话期间无法访问该永久,除非您删除或重命名该临时。...默认情况下,Apache Hive将临时数据存储默认用户暂存目录/ tmp / hive- 。通常,默认情况下不会将此位置设置为容纳大量数据,例如临时产生数据。

    4.7K20

    hive面试必备题

    删除影响 内部删除内部时,Hive删除元数据以及存储数据。这意味着一旦内部删除,其对应数据也会从HDFS上被永久删除。...外部删除外部时,Hive删除元数据,而数据仍然保留在HDFS上原位置。这是因为Hive认为外部数据可能被其他应用或查询所使用。 c....外部适用于:需要在多个服务或应用间共享数据。当数据由外部程序产生并管理,且Hive之外还要被其他应用访问时,应该使用外部。 d....对于需要长期和跨应用共享数据,推荐使用外部。 内部适合临时分析任务,数据处理完成后,和数据一起删除,便于管理。 删除外部前,需要明确这一操作仅移除元数据,而数据仍然保留在HDFS上。...启用Kerberos认证Hadoop集群,用户和服务都必须通过Kerberos认证后才能访问Hive。这提供了一种强大防止未授权访问方法。 d.

    43710

    实时离线一体化技术架构(万字,15张图)

    时间无法归档数据,会造成数据越积越大,对于轻量级数据库MySQL来说,是个很大挑战。就算做好分库分准备。条件复杂查询聚合时候也一样容易搞爆内存。何况系统dal层设计得有所欠缺。...很长一段时间里,企业只能对数据仓库数据进行提前计算,再将算好后结果存储APP层或DW层上,再提供给用户进行查询。...需要解决问题: 即时系统存在Kudu数据,需要通过Hive能访问,这点仿照Impala,创建外部 ,将kudu映射到HiveHive能像Impala一样,能创建、查询、更新、删除操作...其中即时系统实时同步到Kudu数据,也需要创建Hive外部,把kudu映射到Hive来,也是KuduStorageHandler实现,包括数据查询、修改、删除。...再补充一点,先前即时查询系统,通过连接器同步过来Kudu数据,同步时候,在数据集成系统,要创建Impala外部,将kudu映射到impala上,这样Impala才能查到。

    1.5K20

    系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

    MOLAP,基于多维数组存储模型,也是OLAP最初形态,特点是对数据进行预计算,以空间换效率,明细和聚合数据都保存在cube。但生成cube需要大量时间和空间。...三、OLAP数据库选型 大数据数仓架构,离线以Hive为主,实时计算一般是Spark+Flink配合,消息队列Kafka一家独大,后起之秀Pulsar想要做出超越难度很大,Hbase、Redis和MySQL...该场景涵盖面很广,例如: 实时指标监控 推荐模型 广告平台 搜索模型 Druid也有很多不足需要注意,由于druid属于时间存储,删除操作比较繁琐,且不支持查询条件删除数据,只能根据时间范围删除数据。...它能在亚秒内查询巨大Hive。 ?...场景特征: 大多数是读请求 数据总是以相当大批(> 1000 rows)进行写入 不修改已添加数据 每次查询都从数据库读取大量行,但是同时又仅需要少量列 宽,即每个包含着大量列 较少查询

    2.2K30

    Apache Doris 简介:下一代实时数据仓库

    在这些情况下,数据平台必须同时处理大量用户请求(这些请求称为“高并发点查询”),而拥有列式存储引擎将放大每秒 I/O 操作,尤其是当数据排列平面时。...具有线性可扩展性,某些用例可以达到每秒 1000 万条记录吞吐量。...多租户管理 Apache Doris 具有复杂基于角色访问控制,它允许在数据库、行和列级别进行细粒度权限控制。...我们为提高可用性所做另一项努力是称为“轻架构更改”功能。这意味着如果用户需要添加或删除某些列,他们只需要更新前端元数据,而不必修改所有数据文件。光模式更改可以几毫秒内完成。...基准测试结果显示,Apache Doris Hive 查询中比 Trino 快 3~5 倍。

    3.6K22

    系列 | 漫谈数仓第四篇NO.4 『数据应用』(BI&OLAP)

    MOLAP,基于多维数组存储模型,也是OLAP最初形态,特点是对数据进行预计算,以空间换效率,明细和聚合数据都保存在cube。但生成cube需要大量时间和空间。...三、OLAP数据库选型 大数据数仓架构,离线以Hive为主,实时计算一般是Spark+Flink配合,消息队列Kafka一家独大,后起之秀Pulsar想要做出超越难度很大,Hbase、Redis和MySQL...该场景涵盖面很广,例如: 实时指标监控 推荐模型 广告平台 搜索模型 Druid也有很多不足需要注意,由于druid属于时间存储,删除操作比较繁琐,且不支持查询条件删除数据,只能根据时间范围删除数据。...它能在亚秒内查询巨大Hive。 ?...场景特征: 大多数是读请求 数据总是以相当大批(> 1000 rows)进行写入 不修改已添加数据 每次查询都从数据库读取大量行,但是同时又仅需要少量列 宽,即每个包含着大量列 较少查询

    2.5K20

    hive基础总结(面试常用)

    Metastore (hive元数据) Hive将元数据存储在数据库,比如mysql ,derby.Hive元数据包括名称,列和分区及其属性,数据所在目录 Hive数据存储HDFS...hive通过MapReduce来实现数据库通常有自己执行引擎。 (6)执行延迟。由于没有索引,需要扫描整个,因此延迟较高。...hive几种基本类型:内部外部、分区、桶 内部(管理)和外部区别: 创建 外部创建时候,不会移动数到数据仓库目录(/user/hive/warehouse),只会记录数据存放路径...内部会把数据复制或剪切到目录下 删除 外部删除时候只会删除元数据信息不会删除数据 内部删除时会将元数据信息和数据同时删除 类型一、管理或内部Table Type: MANAGED_TABLE...,对Hive性能具有非常大影响,特别是对于很难避免小文件场景或者task特别多场景,这类场景大多数执行时间都很短。

    75130

    Hadoop数据仓库工具Hive

    它是HDFS之上构建开源数据仓库系统,为数据添加了结构。就像数据库一样,Hive具有创建数据库、创建和使用查询语言处理数据功能。用于Hive查询语言称为Hive查询语言(HQL)。...Meta Store:Hive 选择相应数据库服务器来存储数据库列、数据类型和 HDFS 映射模式或元数据。...: Hive可以有两种类型。第一种是普通,就像数据库任何其他一样。第二种是外部,除了删除部分外,它们与普通表相似。通过HDFS映射来创建外部,它们是指向HDFS中表指针。...这两种类型之间区别在于当删除外部时。删除数据并没有被删除。它数据存储HDFS,而在普通情况下,删除时数据也会被删除。 分区:分区是指存储目录不同子目录切片。...它将在大量数据集上执行,并以并行方式执行查询。通过此模式,可以实现对大数据集处理,并获得更好性能。 Hive特点 Hive,首先创建数据库,然后将数据加载到这些

    42520

    Hive面试题持续更新【2023-07-07】

    Sqoop是一个用于Hadoop和关系型数据库之间进行数据传输工具,可以将关系型数据库数据导入到Hadoop集群HDFS,然后使用Hive来处理数据。...当删除外部时,只删除元数据,而不会删除实际数据文件。 应用场景:外部适用于需要与其他数据处理系统进行集成场景。...通过外部,可以Hive访问和查询外部存储系统数据,方便数据共享和交互。...Hive只维护元数据信息,而数据文件存储在外部系统。 应用场景:外部分区适用于需要Hive访问和查询外部存储系统分区数据场景。...(metadata)及存储数据;删除外部仅仅会删除元数据,HDFS上文件并不会被删除; 八、Hive有索引吗 Hive 支持索引,但是 Hive 索引与关系型数据库索引并不相同,比如,Hive

    10710

    Hadoop技术(三)数据仓库工具Hive

    (图3) # 6.5 我们可以插入数据然后访问hdfsnamenode图形化界面查看我们新建数据(数据插入时间很漫长~~~后面会优化) 图1 ?...删除(包括内部, 外部) drop table 名; 区分内外部(面试会问) : 创建时 ,内部直接存储默认hdfs路径 .外部需要自己指定路径 删除时 ,内部将数据和元数据全部删除...,外部删除元数据,HDFS数据不删除 内部外部使用原则 先有,后有数据,使用内部。...注意: 关系数据库 写时检查( mysql / oracle,我们向数据库插入数据时会进行sql语句检查 ) Hive 读时检查(读取数据时 ,符合规则才能被读取到 ,否则为null ;...) # hive shell 执行外部命令文件 二 脚本方式 举例 bash shell执行查询数据库操作 ,并在脚本运行 # 1.编写脚本 vim show_emp_table ---

    1.9K30

    看完了108份面试题,我为你总结出了这 10 个【Hive】高频考点(建议收藏)

    Hive元数据信息包含名,列名,分区及其属性,属性(包括是否为外部),数据所在目录等。...4、Hive内部外部、分区、分桶区别,以及各自使用场景 内部 如果Hive没有特别指定,则默认创建都是管理,也称内部。...由Hive负责管理数据,管理不共享数据。删除管理时,会删除管理数据和元数据信息。 外部 当一份数据需要被共享时,可以创建一个外部指向这份数据。...删除并不会删除掉原始数据,删除元数据。当结构或者分区数发生变化时,需要进行一步修复操作。...与数据库 order by区别在于 hive 严格模式下(hive.mapred.mode = strict)下,必须指定 limit ,否则执行会报错!

    98340

    使用 Replication Manager 迁移到CDP 私有云基础

    例如,如果正在复制数据库具有外部,则所有外部 HDFS 数据位置也应该是可快照。否则可能会导致Replication Manager无法生成差异报告。...Note 如果您复制作业需要很长时间才能完成,并且复制完成之前文件已更改,则复制可能会失败。...笔记 如果您复制作业需要很长时间才能完成,并且复制完成之前发生了变化,则复制可能会失败。考虑将 Hive 仓库目录和任何外部目录设为可快照,以便复制作业复制文件之前创建目录快照。...将快照与复制结合使用 某些复制,尤其是那些需要很长时间才能完成复制,可能会因为源文件复制过程中被修改而失败。 您可以通过将快照与复制结合使用来防止此类故障。...显示Hive 仓库目录属性。 如果您在 Hive 中使用外部,还要使托管任何未存储 Hive 仓库目录外部目录快照表。

    1.8K10

    大数据技术之_08_Hive学习_02_DDL数据定义(创建查询修改删除数据库+创建+分区+修改+删除)+DML数据操作(数据导入+数据导出+清除数据)

    删除时候,内部元数据和数据会被一起删除,而外部删除元数据,不删除数据。 (3)COMMENT:为和列添加注释。 (4)PARTITIONED BY:表示创建分区。...在建时候,用户还需要指定列,用户指定同时也会指定自定义SerDe,Hive通过SerDe确定具体数据。   ...在外部(原始日志基础上做大量统计分析,用到中间、结果使用内部存储,数据通过SELECT+INSERT进入内部。 3、案例实操 分别创建部门和员工外部,并向中导入数据。...小结:实际开发过程,针对原始数据建外部,因为原始数据会有很多人用。 所以我们删除外部后,不用怕,因为数据还在,我们只需要重新新建该,数据即可恢复。...5.3 清除数据(truncate) 注意:truncate只能删除管理,不能删除外部数据 hive (default)> truncate table student;

    1.7K20

    看完了108份面试题,我为你总结出了这 10 个【Hive】高频考点(建议收藏)

    Hive元数据信息包含名,列名,分区及其属性,属性(包括是否为外部),数据所在目录等。...4、Hive内部外部、分区、分桶区别,以及各自使用场景 内部 如果Hive没有特别指定,则默认创建都是管理,也称内部。...由Hive负责管理数据,管理不共享数据。删除管理时,会删除管理数据和元数据信息。 外部 当一份数据需要被共享时,可以创建一个外部指向这份数据。...删除并不会删除掉原始数据,删除元数据。当结构或者分区数发生变化时,需要进行一步修复操作。...与数据库 order by区别在于 hive 严格模式下(hive.mapred.mode = strict)下,必须指定 limit ,否则执行会报错!

    1.3K40

    需要不是实时数仓 | 你需要是一款强大OLAP数据库(下)

    用户决策分析需要对关系数据库进行大量计算才能得到结果,而查询结果并不能满足决策者提出需求。因此,Codd提出了多维数据库和多维分析概念,即OLAP。...组件特点和简介 Hive https://hive.apache.org/ Hive是基于Hadoop一个数据仓库工具,可以将结构化数据文件映射为一张数据库,并提供完整sql查询功能,可以将sql...对于hive主要针对是OLAP应用,其底层是hdfs分布式文件系统,hive一般只用于查询分析统计,而不能是常见CUD操作,Hive需要从已有的数据库或日志进行同步最终入到hdfs文件系统,当前要做到增量实时同步都相当困难...Hive 要访问数据满足条件特定值时,需要暴力扫描整个数据库,因此访问延迟较高。 Hive真的太慢了。...每当新记录/文件被添加到HDFS数据目录时,该需要被刷新。这个缺点会导致正在执行查询sql遇到刷新会挂起,查询不动。

    1.7K20

    hive面试题汇总

    Hivemetastore三种模式 内嵌Derby⽅式 这个是Hive默认启动模式,⼀般⽤于单元测试,这种存储⽅式有⼀个缺点:同⼀时间只能有⼀个进程连接使⽤数据库。...⾃⼰指定location 删除时,外部不会删除对应数据,只会删除元数据信息,内部则会删除 其他⽤法是⼀样 Hive 四种排序⽅式区别...desc Hivejoin⼩优化⽅法 和⼤进⾏join时,将⼩放在前边,效率会⾼,hive会将⼩进⾏缓存 Hivejoin都有哪些 Hive除了⽀持和传统数据库⼀样内关联(...LEFT SEMI JOIN 以LEFT SEMI JOIN关键字前⾯为主表,返回主表KEY也记录 笛卡尔积关联(CROSS JOIN) 返回两个笛卡尔积结果,不需要指定关联键...Impala使⽤服务⽅式避免每次执⾏查询都需要启动开销,即相⽐Hive没了MapReduce启动时间

    1.3K20
    领券