Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Presto集群部署

Presto集群部署

作者头像
云海谷天
发布于 2022-08-09 06:39:14
发布于 2022-08-09 06:39:14
1.4K0
举报

前言:

  随着大数据的普及,大部分企业的大数据查询与统计渐渐出现瓶颈。虽说存储方面有分布式的HDFS,HBSE,MongoDB等可以应对,但是面对千万级别(1x10^7)界别的数据量查询时,以上组件也不免显得力不从心。正因此,分布式查询引擎应运而生。而基于内存查询的分布式查询引擎--Presto正是其中之一。很多人都说现代计算机技术的发展都是拼开源,拼社区。而Presto的社区也不小,国际化的Facebook,也有国内电商大头京东。正因此,在经过实际尝试与测验之后决定简要地介绍一下presto的部署方式,希望能给有需要的朋友提供一些参考。

1. Presto集群部署架构图

2.安装步骤

step1:系统环境准备:

1)JDK8

2)Hadoop2.x

step2:软件准备

presto-server-0.191.tar.gz

下载地址:https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.191/presto-server-0.191.tar.gz

$ wget http:xxxx/a-b-xxx.gz

$ tar -zxvf http:xxxx/a-b-xxx.gz

$ ln -s a-b-xxx presto-server

step3:新建文件目录

$PRESTO_INSTALL_HOME=/opt/prestodb

$PRESTO_INSTALL_HOME下面新建2个目录:

presto_data

presto_server

step4:在presto_server添加配置文件

$mkdir etc

$find

./jvm.config

./catalog

./catalog/hive.properties

./catalog/jmx.properties

./node.properties

./config.properties

./log.properties

① catalog/jmx.properties配置内容:

connector.name=jmx

② catalog/hive.properties配置内容:

connector.name=hive-hadoop2 hive.metastore.uri=thrift://gzp210016clit01:9083   hive.config.resources=$HADOOP_HOME/core-site.xml,$HADOOP_HOME/hdfs-site.xml

注意:

connector.name配置的是当前集群的hadoop版本,默认”hive-hadoop2”即可

hive.metastore.uri=hive元数据服务地址

hive.config.resources=core-site.xml和hdfs-site.xml的配置文件路径

③ jvm.config

-server -Xmx16G -XX:+UseG1GC -XX:G1HeapRegionSize=32M -XX:+UseGCOverheadLimit -XX:+ExplicitGCInvokesConcurrent -XX:+HeapDumpOnOutOfMemoryError -XX:+ExitOnOutOfMemoryError

④ node.properties

node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/home/dev_chenjunhong/presto_data

注意:

node.id全局唯一,建议用本机的ip最后2位结尾

node.data-dir配置的数据目录需提前创建

⑤ log.properties

com.facebook.presto=INFO

⑥ config.properties

主节点:

coordinator=true node-scheduler.include-coordinator=true http-server.http.port=18080 query.max-memory=5GB query.max-memory-per-node=1GB discovery-server.enabled=true discovery.uri=http://localhost:18080

从节点:

coordinator=false http-server.http.port=18080 query.max-memory=5GB query.max-memory-per-node=1GB discovery.uri=http://master:18080

step5:启动测试

进入目录

$ cd presto-server

启动方式1:阻塞式启动

$ bin/launcher run

启动方式2:非阻塞式(后台)启动

$ bin/launcher start

step6:web界面访问

附录

1.官网的安装说明 https://prestodb.io/docs/current/installation/deployment.html

2.客户端连接测试

step1:下载jar包并创建快捷方式

$ wget https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.191/presto-cli-0.191-executable.jar

step2:连接服务

$ ln -s presto-cli-xxx.jar presto

$ ./presto --server server-ip:port --catalog hive --schema default

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-01-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用presto查询同步到hive的hudi数据
上述配置项为presto-server配置信息,同时将coordinator以及worker都集中在同一台主机。
从大数据到人工智能
2022/01/19
1.2K0
使用presto查询同步到hive的hudi数据
presto环境搭建
1、环境准备 支持操作系统: Linux or Mac OS X Java 8, 64-bit Python 2.4+
cwl_java
2020/03/24
1.8K0
比hive快10倍的大数据查询利器-- presto
目前最流行的大数据查询引擎非hive莫属,它是基于MR的类SQL查询工具,会把输入的查询SQL解释为MapReduce,能极大的降低使用大数据查询的门槛, 让一般的业务人员也可以直接对大数据进行查询。但因其基于MR,运行速度是一个弊端,通常运行一个查询需等待很久才会有结果。对于此情况,创造了hive的facebook不负众望,创造了新神器---presto,其查询速度平均比hive快10倍,现在就来部署体验一下吧。
俊才
2019/08/07
2.2K0
比hive快10倍的大数据查询利器-- presto
Presto之分布式安装查询Hive
    工作需要使用Presto,记录下。Presto需要Hive,安装Hive的步骤略,可参考我的这篇博客。
克虏伯
2019/07/29
1.3K0
CentOS 6.9 搭建 Presto 原
1.下载 presto-server-0.166.tar.gz 和 presto-cli-0.166-executable.jar, 也可以直接到 http://mvnrepository.com 寻找 jar 包
北漂的我
2019/05/29
4340
Centos 6.9 配置 Presto
4. 在 catalog 目录下创建文件 hive.properties ,文件内容如下
北漂的我
2019/05/28
9160
大数据实时查询-Presto集群部署搭建
Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。Presto的运行模型和Hive或MapReduce有着本质的区别。Hive将查询翻译成多阶段的MapReduce任务, 一个接着一个地运行。 每一个任务从磁盘上读取输入数据并且将中间结果输出到磁盘上。 然而Presto引擎没有使用MapReduce。它使用了一个定制的查询和执行引擎和响应的操作符来支持SQL的语法。除了改进的调度算法之外, 所有的数据处理都是在内存中进行的。 不同的处理端通过网络组成处理的流水线。 这样会避免不必要的磁盘读写和额外的延迟。 这种流水线式的执行模型会在同一时间运行多个数据处理段, 一旦数据可用的时候就会将数据从一个处理段传入到下一个处理段。 这样的方式会大大的减少各种查询的端到端响应时间。
高广超
2018/12/12
3.5K0
Presto实战
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。
全栈程序员站长
2022/09/20
2K0
Presto 安装与部署
Presto 在访问 Hive 中的数据时需要得到 Hive 中的所有元数据信息,因此需要部署一个 HiveMetaStore 服务提供 Hive 的元数据信息。
smartsi
2020/02/25
3.1K1
如何在CDH集群中部署Presto
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。 Fayson的github: https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Presto是由Facebook开源,完全基于内存的并行计算以及分布式SQL交互式查询引擎。它可以共享Hive的元数据,然后直接访问HDFS中的数据,同时支持Hadoop中常见的文件格式比如文本,ORC和Parquet。同Impala一样,作为Hado
Fayson
2018/07/12
4.9K0
OLAP引擎:基于Presto组件进行跨数据源分析
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节,Presto虽然具备解析SQL的能力,但它并不属于标准的数据库范畴。
知了一笑
2021/04/29
1.2K0
OLAP引擎:基于Presto组件进行跨数据源分析
快速学习-Presto安装部署
支持以下文件类型:Text, SequenceFile, RCFile, ORC 此外,需要有远程的Hive元数据。 不支持本地或嵌入模式。 Presto不使用MapReduce,只需要HDFS。
cwl_java
2020/03/24
3.4K0
Presto+yanagishima部署
Presto下载页面 https://prestodb.io/docs/current/installation/deployment.html
范一刀
2022/06/29
1K0
Presto+yanagishima部署
从 0 到 1 学习 Presto,这一篇就够了
Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。本期内容,我会从一个初学者的角度,带着大家从 0 到 1 学习 Presto,希望大家能够有所收获!
大数据梦想家
2021/10/22
8.4K1
Presto连接MySQL
准备两台机器,机器名为 bd1 和 bd2,,并且在这两个节点上安装 hadoop,hive,并且准备一个mysql数据库。
kongxx
2018/12/04
2.8K0
[喵咪大数据]Presto查询引擎
如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL,Impala,kilin已经今天的主角Presto, Presto以速度和极强的扩展性取得了胜利,不仅能够提高对HIVE数据查询速度还能和异构数据库进行关联查询,比如HIVE和Mysql进行关联查询,那么我们就来迫不及待的揭开Presto的庐山真面目 附上: 喵了个咪的博客:w-blog.c
喵了个咪233
2018/03/02
2K0
[喵咪大数据]Presto查询引擎
大数据Presto(二):Presto安装搭建
https://prestodb.io/docs/current/installation/deployment.html#installing-presto
Lansonli
2022/10/08
1.7K0
大数据Presto(二):Presto安装搭建
多EMR-Presto集群共享EMR-Hive集群配置方案
EMR的某些客户的数据仓库使用EMR-Hive存储,presto连接hive快速ad-hoc查询,但是有些场景下不同的业务部门有各自不同的使用presto查询需求,多EMR-Presto集群共享EMR-Hive集群配置方案可以满足这种需求。
sundyxiong
2018/09/17
1.5K0
多EMR-Presto集群共享EMR-Hive集群配置方案
Presto系列 | Presto基本介绍
Presto是一款Facebook开源的MPP架构的OLAP查询引擎,可针对不同数据源执行大容量数据集的一款分布式SQL执行引擎。因为工作中接触到Presto,研究它对理解SQL Parser、常见算子的实现(如SQL中table scan,join,aggregation)、资源管理与调度、查询优化(如向量化执行、动态代码生成)、大数据下各个组件为何适用不同场景等等都有帮助。我希望通过这个系列可以了解一条SQL在大数据场景下该如何高效执行。233酱准备不定时持续更新这个系列,本文主要从Presto的使用举例,Presto的应用场景、Presto的基本概念三个部分来初步介绍Presto。
Monica2333
2020/09/24
4.4K0
Presto系列 | Presto基本介绍
使用python连接presto-202104
首先python脚本连接presto 官方提供了presto-python-clienthttps://github.com/prestodb/presto-python-client,第三方也有提供pyhivehttps://github.com/dropbox/PyHive,我这里使用的是presto-python-client,毕竟是官方的。
用户8483969
2021/04/09
3.1K0
相关推荐
使用presto查询同步到hive的hudi数据
更多 >
LV.1
腾讯科技运营开发
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档