Presto和Hive - 腾讯云开发者社区

文章/答案/技术大牛

发布

Presto连接Hive

/hive_metastore_ip>:9083 hive.config.resources=/opt/presto-server-0.211/etc/cluster/core-site.xml,/opt.../presto-server-0.211/etc/cluster/hdfs-site.xml 其中 hive.metastore.uri 可以从 hive-site.xml 文件中获取。...hdfs 配置文件从 hdfs 的环境中复制 core-site.xml 和 hdfs-site.xml 文件到 presto 的 etc/cluster 目录下。.../presto --server bd1:8080 --catalog hive --schema test # 查询数据库 presto:test> show schemas from hive;...:test> show tables from hive.test; Table -------- users users2 (2 rows) # 查询数据 presto:test>

3.9K6 0

Presto Hive连接器

Presto仅使用前两个组件：数据和元数据。它不使用HiveQL或Hive执行环境的任何一部分。...Presto将其自己的S3文件系统用于URI前缀s3：//，s3n：//和s3a：//。...使用S3SelectPushdown，Presto仅从S3而不是整个S3对象中检索所需的数据，从而减少了延迟和网络使用率。...Alluxio 配置 Presto可以利用Alluxio的分布式块级读/写缓存功能读取和写入存储在Alluxio中的表。...然后，Presto将透明地从各种不同的存储系统（包括HDFS和S3）中检索和缓存文件或对象。

2.6K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

Presto实现Hive Connector的配置实录

作为一个开源分布式SQL查询引擎，Presto用于对各种大小的数据源进行交互式分析查询。其本身是为交互式分析而设计和编写的，其速度接近商业数据仓库的速度。...我们选择Presto主要也是因为基于Hive的数据分析相对较慢，所以直接使用Presto查询Hive数据是更加快捷的。...Presto对比常和Presto对比的包括以下组件：Druid、Kylin、Impala等。按查询类型划分，OLAP一般分为即席查询和固化查询。...目前来说，ClickHouse可以解决现在大部分问题，但也是后续进行组件优化和升级之后的选择。...Hive，通过Hive+MR的方式来分析，这个环节就很节省时间了，所以同步进行系统架构改进，会在Hive上面直接加一层Presto。

2370 0

Presto之分布式安装查询Hive

工作需要使用Presto，记录下。Presto需要Hive，安装Hive的步骤略，可参考我的这篇博客。 ...Hadoop的版本是2.7.2，Hive的版本是2.1.1，Presto的版本是0.197。...presto-slave1 和presto-coordinator一样，在etc下新建config.properties、jvm.config、log.properties、node.properties...、catalog/hive.properties，只是config.properties的内容和coordinator的不同，如下List-7，node.properties的值和coordinator... 在slave2上和slave1的一样，只是node.properties的值和slave1的不同，如下List-9所示，将node.id修改为自己的 List-9 node.environment

1.4K3 0

Presto+Hive+Cos搭建大数据套件

它的产生是为了解决Hive的MapReduce模型太慢以及不能通过BI或Dashboards直接展现HDFS数据等问题。...，不要将coordinate和worker安装在同一个节点上面，否则会报错。...任务的所有机器上去，presto的lib和hdfs的目录都要放，后面会用到，具体路径如下： /usr/hdp/current/hadoop-client/lib/cos_hadoop_api.jar.../presto/lib/plugin/hive-hadoop2/cos_hadoop_api.jar /usr/lib/presto/lib/plugin/hive-hadoop2/hadoop-cos.jar.../usr/lib/presto/bin/presto-cli --server 127.0.0.1:8089 --catalog hive --schema default select * from

2.4K0 0

如何为Presto集成Kerberos环境下的Hive

账号并生成keytab文件这里Fayson使用presto用户来访问HiveMetastore及HDFS，如下是Fayson创建Kerberos账号和导出Keytab文件命令 kadmin.local...在hive.properties配置文件中增加访问HiveMetastore和HDFS的Kerberos认证信息，将如上配置同步至Presto集群所有节点的${PRESTO_HOME}/etc/catalog...在jvm.conf文件中增加java.security.krb5.conf和sun.security.krb5.debug配置，用于指定krb5.conf和配置Kerberos的Debug模式。...执行Select和Count操作 ? 登录Presto的8080界面查看SQL执行记录 ?...5.总结 ---- 1.Fayson在集成Kerberos环境的Hive时，使用presto用户访问HiveMetastore和HDFS服务。

4.6K4 0

使用presto查询同步到hive的hudi数据

并且，以下内容中的presto查询，即是基于上述参考文章所同步的hive表进行查询的，建议可先阅读上述参考文章。以下presto安装以单节点为例。...presto 0.261 下载下载presto-server和presto-cli mkdir /data mkdir /data/presto-cli cd /data wget https://repo1...,/data/presto-server/etc/catalog/hdfs-site.xml Copy 上述配置项为hive连接信息，其中， connector.name为hive connector...名称 hive.metastore.uri为hive metastore连接信息 hive.parquet.use-column-names=true设置来解决presto读取parquet类型问题...至此，我们完成了presto安装与启动工作，接下来就可以对hive中的数据进行查询。

1.4K1 0

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

hive 查询hudi 数据主要是在hive中建立外部表数据路径指向hdfs 路径，同时hudi 重写了inputformat 和outpurtformat。...所以hive 要集成hudi 查询要把编译的jar 包放到HIVE-HOME/lib 下面。否则查询时找不到inputformat和outputformat的类。...集成 hudi presto 集成hudi 是基于hive catalog 同样是访问hive 外表进行查询，如果要集成需要把hudi 包copy 到presto hive-hadoop2插件下面。...presto集成hudi方法: 将hudi jar复制到 presto hive-hadoop2下 cp ....hudi 和hive同步时保证hive目标表不存在,同步其实就是建立外表的过程。

3K2 0

多EMR-Presto集群共享EMR-Hive集群配置方案

EMR的某些客户的数据仓库使用EMR-Hive存储，presto连接hive快速ad-hoc查询，但是有些场景下不同的业务部门有各自不同的使用presto查询需求，多EMR-Presto集群共享EMR-Hive...image.png 假设EMR-Hive的集群为A集群，新增的EMR-Presto集群为B+集群，设置A集群为B+共享集群，只需要把B+集群的presto-hive配置变更即可。...把hdfs-site.xml和core-site.xml文件都分发到集群所有节点下的相同目录 3.更改/usr/local/service/presto/etc/catalog/hive.properties...更改为A集群的hive-server2的地址 hive.config.resources更改为刚刚设置的/home/hadoop/hdfs-site.xml和/home/hadoop/core-site.xml...和worker节点。

1.7K15 4

大数据Presto（四）：Presto自定义函数和JDBC连接

Presto自定义函数和JDBC连接一、Presto 自定义函数我们可以登录Presto客户端，使用命令：show functions 来查询对应的内置函数。...我们也可以自己定义函数，自定义的函数包含UDF和UDAF函数。1、UDF函数自定义UDF函数及使用可以按照下面步骤来实现。...所有Presto节点上传完成后，重启Presto集群。1.6、使用自定义UDF函数#登录Presto客户端..../presto --server node3:8080 --catalog mysql --schema presto_db#查询所有函数presto:presto_db> show functions...所有Presto节点上传完成后，重启Presto集群。2.4、在presto中执行如下命令#登录Presto客户端[root@node3 presto-0.259]# .

1.8K11 2

大数据Presto（一）：Presto介绍

在早期Facebook依赖Hive做数据分析，Hive底层依赖MapReduce，随着数据量越来越大，使用Hive进行数据分析，时间可能需要分钟级到小时级别，不能满足交互式查询的数据分析场景。...2012年秋季，Facebook开发Presto，目前该项目在Facebook中运行超过30000个查询，每日处理数据PB以上。Presto的查询速度是Hive的5-10倍。...Presto官网地址：https://prestodb.io图片二、Presto特点多数据源Presto可以支持MySQL、PostgreSQL、cassandra、Hive、Kafka等多种数据源查询...Presto性能是Hive的10倍以上。...Hive Metastore（配置Hive Connector才会有）Presto通过Hive Connector读取Hive数据时，配置Hive Metastore服务为Presto提供Hive元数据信息

2.7K6 1

Presto系列 | Presto基本介绍

hbase 和 es 的Join查询举例 Presto官方版和Presto社区版已经支持了很多Connector，社区版略胜一愁。至于两者有何区别，吃瓜群众可以前往文末参考资料[2]。...参考资料[1]提到了Presto在Facebook中的使用场景有：报表和大盘查询做过报表和大盘的小伙伴应该对这个场景下复杂的SQL有所了解。...Connector connector是Presto中的一个数据源，可以是Hive、Mysql、Elasticsearch、HBase等。...Presto自带一些connectors：如JMX，System connector用来获取system tables的，Hive connector，TPCH connector 用来性能测试用的，等等...上执行SQL时，你就在运行1-多个catalogs.在Presto上定位一张表，是通过一个catalog的全限定名确定的，如hive.test_data.test代表在hive catalog，test_data

4.7K4 0

Presto？还是 Hive？你们知道大数据查询性能谁更强吗？

经过对 Presto 和 Hive 的性能做了大量的对比测试，最终结果表明： Presto 的平均查询性能是 Hive 的 10 倍！...由于 Presto 卓越的性能表现，使得 Presto 可以弥补 Hive 无法满足的实时计算空白，因此可以将 Presto 与 Hive 配合使用：对于海量数据的批处理和计算由 Hive 来完成；对于大量数据...需要 Presto 和 Hive 配合使用来满足实际的业务需求。...（ 2）使用 Cli 客户端进行数据分析 Presto 使用 Hive 作为数据源，对 Hive 中的数据进行查询和分析。...Presto 是专门针对基于 Ad-Hoc 的实时查询和计算进行设计的，其平均性能Hive的 10 倍，因此 Presto 更适合于稍小数据量的计算和差异性分析等 Ad-Hoc 查询。

2.4K1 0

比hive快10倍的大数据查询利器-- presto

对于此情况，创造了hive的facebook不负众望，创造了新神器---presto，其查询速度平均比hive快10倍，现在就来部署体验一下吧。....tar.gz presto client： presto-cli-0.221-executable.jar 注： a）本次是基于hive来进行部署使用,因此相关节点已部署hadoop、hive;...Presto使用HTTP来与外部和内部进行交流。...将192.168.11.22:8080替换为coordinator的host和端口。这个URI不能以斜杠结尾，这个错误需特别注意，不然会报404错误。...node.data-dir: 数据目录，Presto用它来保存log和其他数据 5）配置catalog及hive.properties 创建 catalog目录，因本次使用的hive,因此在此目录下创建

2.4K4 0

Presto 和 Trino Deltalake 原理调研和总结

最近在了解 Presto 和 Trino 对于 Deltalake Connector 的相关实现原理，这里了解完刚好用一篇文章总结下，一是可以帮助自己未来的回顾，二是也希望能够帮助大家，下面都是个人理解...一、数据湖元数据获取对比 1.1 Deltalake 元数据获取实现方式 Presto 和 Trino 当前支持通过 Hive Metastore 相关接口 + 自己解析 Deltalake 事务日志（...整体上 Hive Metastore 能够提供到一张 Deltalake 表在底层文件系统的 Location 信息，结合 Location 的信息，具体事务日志的解析逻辑，Presto 和 Trino...的实现有所不同： 1.1 Hive Metastore 的集成 Presto 和 Trino Deltalake 都支持三种兼容 HiveMetastore 接口实现的 MetaStore 类型： 1...1.3.2 Presto 不支持 1.3.3 总结二、数据湖支持操作对比 Trino 支持 Deltalake 表的 Read 和 Write，Presto 支持 Deltalake 表的 Read。

6931 0

Apache Hudi和Presto的前世今生

Hudi表可存储在Hadoop兼容的分布式文件系统或者云上对象存储中，并且很好的集成了 Presto, Apache Hive, Apache Spark 和Apache Impala。...任何注册的Hive表（如果有此注解）都将通过调用相应的inputformat的getSplits()方法（而不是Presto Hive原生切片加载逻辑）来获取切片。...中支持这一点需要理解Presto如何从Hive表中获取记录，并在该层中进行必要的修改。...这指示Presto使用Hive记录光标（使用InputFormat的记录读取器）而不是PageSource。Hive记录光标可以理解重新创建的自定义切片，并基于自定义切片设置其他信息/配置。...时间点查询允许在时间T1和T2之间获取Hudi表的状态。这些已经在Hive和Spark中得到支持。我们也在考虑在Presto中支持这个特性。

2K2 0

Presto使用Docker独立运行Hive Standalone Metastore管理MinIO（S3）

本文介绍使用Docker运行Hive Standalone Metastore，并以Presto中的Hive连接器为例，通过Hive Metastore管理MinIO（S3兼容的对象存储）中的数据。...本文涉及的组件及其版本：组件名称组件版本 Hive Standalone Metastore 3.1.2 hadoop 3.2.2 mysql 5.7.35 presto 0.261 MinIO...minio-hive-standalone-metastore:v1.0Copy 使用Presto测试Hive Metastore 如果您还没有安装好Presto，请先按照文档https://blog.csdn.net.../weixin_39636364/article/details/120518455对catalog配置进行如下修改，并启动presto server connector.name=hive-hadoop2...进入presto cli，查看catalogs： show catalogs;Copy 得到：创建schema：已知我们在MinIO上有一个hive-storage的buckets，那么执行如下命令创建

1.7K2 0

Presto实战

Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 2、它可以做什么？...3、介绍 Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。...）： bin/launcher run 运行bin/launcher–help，Presto将会列出支持的命令和命令行选项。...这份日志文件中只会有很少的信息，包括：在server日志系统初始化的时候产生的日志和JVM产生的诊断和测试信息。 server.log：这个是Presto使用的主要日志文件。... thrift://chavin.king:9083 2、启动hiveserver2和hive元数据服务： bin/hive –service

2.3K2 0

大数据Presto（五）：Presto优化与Impala对比

Presto优化与Impala对比一、Presto优化1、数据存储一般Presto与Hive整合使用，针对这种使用情况有如下几点优化建议：合理设置分区合理设置分区在读取数据时可以针对分区数据读取...，可以减少Presto数据读取量，提升查询性能。...使用列式存储Presto对ORC文件读取做了特定优化，因此在Hive中创建Presto使用的表时，建议采用ORC格式存储。相对于Parquet，Presto对ORC支持更好。...如果是查询TopN或者BottomN，使用limit可减少排序计算和内存压力。...二、Presto与Impala对比Impala性能比Presto相对来说要快一些，两者都对内存消耗比较大，虽然Impala速度快但是Presto支持的数据源丰富。

1.9K6 1

大数据Presto（二）：Presto安装搭建

#临时数据和目录的位置node.data-dir=/software/presto-0.259/data7、配置jvm.config在node3“/software/presto-0.259/etc”目录下创建...数据源由于启动Presto后，需要通过Connector连接数据源来显示数据，所以这里先配置下Hive数据源Connector。...在node3“/software/presto-0.259/etc”目录下创建“catalog”目录，在此目录下创建hive.properties,并写入：connector.name=hive-hadoop2hive.metastore.uri...#临时数据和目录的位置node.data-dir=/software/presto-0.259/data修改node4节点“/software/presto-0.259/etc/config.properties...指定连接hive，这里写的名字和“/software/presto-0.259/etc/catalog”路径中配置的properties名称保持一致。

1.9K7 1

点击加载更多

Presto连接Hive

Presto Hive连接器

Presto实现Hive Connector的配置实录

Presto之分布式安装查询Hive

Presto+Hive+Cos搭建大数据套件

如何为Presto集成Kerberos环境下的Hive

使用presto查询同步到hive的hudi数据

「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

多EMR-Presto集群共享EMR-Hive集群配置方案

大数据Presto（四）：Presto自定义函数和JDBC连接

大数据Presto（一）：Presto介绍

Presto系列 | Presto基本介绍

Presto？还是 Hive？你们知道大数据查询性能谁更强吗？

比hive快10倍的大数据查询利器-- presto

Presto 和 Trino Deltalake 原理调研和总结

Apache Hudi和Presto的前世今生

Presto使用Docker独立运行Hive Standalone Metastore管理MinIO（S3）

Presto实战

大数据Presto（五）：Presto优化与Impala对比

大数据Presto（二）：Presto安装搭建

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐