如何在Apache Drill查询中以列形式获取输入文件名 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据文件格式对比 Parquet Avro ORC 特点格式优劣势

文章目录背景 Apache Avro Apache Parquet Apache ORC 总结 Ref 背景 ? 在大数据环境中,有各种各样的数据格式,每个格式各有优缺点。...Apache Parquet 源自于google Dremel系统，Parquet相当于Google Dremel中的数据存储引擎，而Apache顶级开源项目Drill正是Dremel的开源实现。...基于列(在列中存储数据):用于数据存储是包含大量读取操作的优化分析工作负载与Snappy的压缩压缩率高(75%) 只需要列将获取/读(减少磁盘I / O) 可以使用Avro API和Avro读写模式...二进制存储格式文件可分割，具有很强的伸缩性和并行处理能力使用schema进行自我描述属于线上格式，可以在Hadoop节点之间传递数据不同点行式存储or列式存储：Parquet和ORC都以列的形式存储数据...，而Avro以基于行的格式存储数据。

5.5K2 1

后Hadoop时代的大数据架构

Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传输。...领导着Apache Drill项目，是Google的Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。原理篇数据存储我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。...使用了一种类似于SQL数据库查询优化的方法，这也是它与当前版本的Apache Spark的主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。...包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo，Apache Drill...Drill Apache社区类似于Dremel的开源版本—Drill。一个专为互动分析大型数据集的分布式系统。 Druid 在大数据集之上做实时统计分析而设计的开源数据存储。

1.7K8 0

您找到你想要的搜索结果了吗？

是的

没有找到

Apache Drill基本介绍

Apache Drill主要特征低延迟 SQL 查询对文件（例如 JSON、Parquet、文本）和 HBase 表中的自描述数据进行动态查询，而无需在 Hive 元存储中定义元数据。...指向数据即可，如文件、目录、HBase表、drill中的数据。...Drill 还提供了对 SQL 的直观扩展以处理嵌套数据。...您可以使用 Drill 在 Hive 表上运行交互式查询并访问所有 Hive 输入/输出格式（包括自定义 SerDes）。...Drill 利用集群中的聚合内存来使用乐观的流水线模型执行查询，并在工作集不适合内存时自动溢出到磁盘。 Drill 是一个用于大数据探索的 Apache 开源 SQL 查询引擎。

2.2K3 0

Apache Drill 专为Hadoop、NoSQL和云存储设计的Schema-free类型的SQL引擎

在此基础上，Drill不仅支持行业标准的 ANSI SQL，做到开箱即用和快速上手，还支持大数据生态的集成，如 Apache Hive 和 Apache Hbase 等存储系统，即插即用的部署方式。...Apache Drill 关键特性低延迟的SQL查询。直接对自描述数据进行动态查询而无需提前定义Schema，如 JSON、Parquet、TEXT 和 Hbase等。...Drill不仅支持丰富的数据类型，如 DATE, INTERVAL, TIMESTAMP, 和 VARCHAR等，还支持复杂的查询语法，如关联子查询和WHERE子句连接，这里有一个示例，在Drill中运行...您可以使用Drill在Hive表上运行交互式查询和分析，并且能够访问Hive的所有输入和输出格式（包含自定义 SerDes）。...可以在单次查询中组合多个数据源（联邦查询）。当然，您也可以实现一个自定义的存储或数据格式插件来连接任意的数据源类型。Drill能够在单个查询中动态组合多个数据源（联邦查询），且不需要中心化的元存储。

1.7K3 0

后Hadoop时代的大数据架构

Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传输。...领导着Apache Drill项目，是Google的Dremel的开源实现，目的是执行类似SQL的查询以提供实时处理。原理篇数据存储我们的目标是做一个可靠的，支持大规模扩展和容易维护的系统。...使用了一种类似于SQL数据库查询优化的方法，这也是它与当前版本的Apache Spark的主要区别。它可以将全局优化方案应用于某个查询之上以获得更佳的性能。 Kafka ?...包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo，Apache Drill...Drill Apache社区类似于Dremel的开源版本—Drill。一个专为互动分析大型数据集的分布式系统。 Druid 在大数据集之上做实时统计分析而设计的开源数据存储。

8885 0

大数据OLAP系统（2）——开源组件篇

2.1 开源MOLAP系统分析 2.1.1 Kylin Apache Kylin 是一个开源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据...整个系统分为两部分：离线构建：数据源在左侧，目前主要是 Hadoop Hive，保存着待分析的用户数据；根据元数据的定义，下方构建引擎从数据源抽取数据，并构建 Cube；数据以关系表的形式输入，...connector：presto以插件形式对数据存储层进行了抽象，即connector。可通过connector连接多种数据源，提取数据。...所有的task是并行的方式进行允许，stage之间数据是以pipeline形式流式的执行，数据之间的传输也是通过网络以Memory-to-Memory的形式进行，没有磁盘io操作。...缺点： SQL语法和常规SQL有区别,一般是如“select * from 插件名.表名”的形式。安装部署比较复杂。 GC机制还有待提高。

2.3K4 0

【聚焦】后Hadoop时代的大数据架构

Hive：用于Hadoop的一个数据仓库系统，它提供了类似于SQL的查询语言，通过使用该语言，可以方便地进行数据汇总，特定查询以及分析存放在Hadoop兼容文件系统中的大数据。...Sqoop：为高效传输批量数据而设计的一种工具，其用于Apache Hadoop和结构化数据储存库如关系数据库之间的数据传输。...领导着Apache Drill项目，是Google的Dremel的开源实现，目的是在Hadoop数据上执行类似SQL的查询以提供实时处理。...包括Apache Hive, Spark SQL, Cloudera Impala, Hortonworks Stinger, Facebook Presto, Apache Tajo，Apache Drill...Drill Apache社区类似于Dremel的开源版本—Drill。一个专为互动分析大型数据集的分布式系统。 Druid 在大数据集之上做实时统计分析而设计的开源数据存储。

9234 0

基于大数据分析系统Hadoop的13个开源工具

Storm也可被用于“连续计算”(continuous computation)，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。...它还可被用于“分布式RPC”，以并行的方式运行昂贵的运算。...Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。...Apache Drill 代码托管地址： GitHub 本质上，Apache Drill是Google Dremel的开源实现，本质是一个分布式的mpp查询层，支持SQL及一些用于NoSQL和...当下Drill还只能算上一个框架，只包含了Drill愿景中的初始功能。

1.8K6 0

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。...Druid Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。...Kylin Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc....场景特征：大多数是读请求数据总是以相当大的批(> 1000 rows)进行写入不修改已添加的数据每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列宽表，即每个表包含着大量的列较少的查询...(通常每台服务器每秒数百个查询或更少) 对于简单查询，允许延迟大约50毫秒列中的数据相对较小：数字和短字符串(例如，每个URL 60个字节) 处理单个查询时需要高吞吐量（每个服务器每秒高达数十亿行）

2.2K3 0

6个用于大数据分析的最好工具

四 Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为"Drill"的开源项目。...Apache Drill 实现了 Google’s Dremel....而"Drill"将有助于Hadoop用户实现更快查询海量数据集的目的。...通过开发"Drill"Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。...Pentaho的发行，主要以Pentaho SDK的形式进行。

7062 0

系列 | 漫谈数仓第四篇NO.4 『数据应用』（BI&OLAP）

数据仓库与OLAP的关系是互补的，现代OLAP系统一般以数据仓库作为基础，即从数据仓库中抽取详细数据的一个子集并经过必要的聚集存储到OLAP存储器中供前端分析工具读取。...Druid Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统，用于解决如何在大规模数据集下进行快速的、交互式的查询和分析。...Kylin Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc....场景特征：大多数是读请求数据总是以相当大的批(> 1000 rows)进行写入不修改已添加的数据每次查询都从数据库中读取大量的行，但是同时又仅需要少量的列宽表，即每个表包含着大量的列较少的查询...(通常每台服务器每秒数百个查询或更少) 对于简单查询，允许延迟大约50毫秒列中的数据相对较小：数字和短字符串(例如，每个URL 60个字节) 处理单个查询时需要高吞吐量（每个服务器每秒高达数十亿行）

2.5K2 0

6个用于大数据分析的最好工具

四 Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为"Drill"的开源项目。...Apache Drill 实现了 Google’s Dremel....而"Drill"将有助于Hadoop用户实现更快查询海量数据集的目的。...通过开发"Drill"Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。...Pentaho的发行，主要以Pentaho SDK的形式进行。

1.1K5 0

【工具】六大工具帮你做好大数据分析

Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。...Apache Drill 实现了 Google’s Dremel....而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。...通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。...Pentaho的发行，主要以Pentaho SDK的形式进行。

9857 0

大数据处理分析的六大工具

Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。...Apache Drill 实现了 Google's Dremel....而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。...通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。...Pentaho的发行，主要以Pentaho SDK的形式进行。

3K15 0

【性能分析】大数据分析工具

四、Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。...Apache Drill 实现了 Google’s Dremel....而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。...通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。...Pentaho的发行，主要以Pentaho SDK的形式进行。

1.2K5 0

6个用于大数据分析的最好工具

四、Apache Drill 为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为“Drill”的开源项目。...Apache Drill 实现了 Google’s Dremel....而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。...通过开发“Drill”Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。...Pentaho的发行，主要以Pentaho SDK的形式进行。

1.1K2 0

SQL多维分析

多维分析中数据通常以立方体(Cube)形式存储，Cube可理解为一组多维数据集，即多个维度构成的数据集，可由多个维度中的维度成员交叉形成单元格数据组成。..., car_model), (city), (), (city, car_model), (city), (car_model), ()); PIVOT PIVOT 子句可用于数据透视图转换，基于特定列值获取聚合值...PIVOT 子句可以在表名或子查询之后指定。 PIVOT 子句语法结构：基于FOR column_list 指定旋转后替换的列，IN expression_list 指定聚合列的条件。...1：以name为查询条件，满足name in ('John', 'Mike')： SELECT * FROM person PIVOT ( SUM(age) AS s, AVG(...2：以name和age为查询条件，满足(name, age) in (（'John', 30）, ('Mike', 40))： SELECT * FROM person PIVOT (

5777 5

运营数据库系列之应用支持

Apache Phoenix对Apache HBase进行了超级优化，而不是针对各种体系结构（认为Drill）进行了优化，并且支持SQL ANSI-92标准。...您可以通过其标准JDBC API以典型的DDL / DML语句的形式创建Apache HBase表并与之交互。...在查询中，UDF可以与内置函数一样使用，例如选择、向上插入、删除、创建功能索引。临时功能特定于会话/连接，无法在其他会话/连接中访问。...在新版本的CDP数据中心中测试应用程序，并从Cloudera Manager访问内置的指标系统，以查看一切是否按预期进行。动态架构变更 Apache HBase中的列族可能包含一个或多个列。...您必须在创建表时定义列系列，但是以后可以动态添加列。Apache HBase的此功能允许您在列族中添加新列，并更改应用程序以开始使用该新列。

1.7K0 0

2015 Bossie评选：最佳开源大数据工具

并且可以进行扩展或定制，以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。 5....Drill使用ANSI 2003 SQL的查询语言为基础，所以数据工程师是没有学习压力的，它允许你连接查询数据并跨多个数据源（例如，连接HBase表和在HDFS中的日志）。...最后，Drill提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。 10. HBASE HBase在今年的里程碑达到1.X版本并持续改善。...像其他的非关系型的分布式数据存储一样，HBase的查询结果反馈非常迅速，因此擅长的是经常用于后台搜索引擎，如易趣网，博科和雅虎等网站。...很高兴看到这样一个有用的软件，得到了显著的非营利组织资助，以进一步发展，如并行执行和多用户笔记本应用。 20. Zeppelin Zeppelin是一个Apache的孵化项目.

1.6K9 0

SQL on Hadoop 技术分析（二）

下面以一个三表join的例子生成的执行计划来说明下Impala组件的在SQL执行过程中的相关的性能优化的技术点。 ?...上图是SQL查询例子，该SQL的目标是在三表join的基础上算聚集，并按照聚集列排序取topN。...HAWQ是基于GreenplumMPP数据库技术实现的，同样采用了Greenplum数据库的SQL查询优化器，下面以运行于HAWQ 解析器中的SQL查询分析HAWQ的查询机制，如下图所示： ?...HAWQ数据库层会对SQL查询加以解析并最终作用于HDFS，一旦查询请求出现，我们会对它进行解析并生成解析树，接下来发生的情况非常特殊。HAWQ获取生成的解析树并从通用目录服务中获取元数据。...总结: 本文主要介绍了几种常用的SQL onHadoop组件的查询优化器的相关技术，其它组件如Apache Drill等等也同样有自己的查询优化器，这些技术未来将会变得越来越成熟，越来越方便用户的使用，

1.2K8 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭