Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >盘点 Greenplum 数据库的十大特点

盘点 Greenplum 数据库的十大特点

作者头像
IT阅读排行榜
发布于 2022-03-11 11:12:53
发布于 2022-03-11 11:12:53
1.7K0
举报
文章被收录于专栏:华章科技华章科技

导读:本文简单介绍Greenplum具备的特性。

作者:王春波

来源:大数据DT

01 开放源代码

Greenplum数据库于2015年由Pivotal公司开源,遵循Apache Licence 2.0协议,官方网站为:

http://greenplum.org

代码托管在GitHub上,链接为:

https://github.com/greenplum-db/gpdb

开放源码一方面可以为数据库用户和开发人员提供Greenplum数据库源码级的实现参考,另一方面可以吸引更多的数据库开发者参与到Greenplum社区维护中。

02 高扩展性

Greenplum数据库采用大规模无共享架构,将多台服务器组装成强大的计算平台,实现高效的海量并行运算。Greenplum数据库可以支持1000个以上的集群,管理的数据规模从TB级到PB级,可以满足多数企业的数据处理需求。

03 高查询性能

Greenplum的高性能不仅来自高效的并行处理框架,还有查询引擎的优化。Greenplum数据库除了支持基于PostgreSQL的查询优化之外,还专门开发了一个新的查询优化器ORCA。

ORCA是一款自顶向下的基于Cascades框架的查询优化器,目前已经成为企业版Greenplum数据库的默认优化器。相比基于PostgreSQL的查询优化器,ORCA查询优化器能使部分查询的性能提升10~1000倍。

04 高可用

Greenplum提供多级容错机制,确保整个系统的高可用性。Master节点通过Standby Master节点进行备份,每个数据节点的Primary Segment实例分别配置一个Mirror Segment实例作为备份,同时确保同一组Primary Segment实例和Mirror Segment实例不在同一物理机上,从而降低因为宕机而导致数据丢失的风险。

05 高效资源管理

Greenplum提供了高效的资源管理机制,根据用户的业务逻辑将资源合理地分配给查询任务,避免查询任务因查询资源不足而得不到响应。

Greenplum资源管理主要包括对并发查询数量的限制,查询执行时内存、CPU资源使用的限制等。Greenplum数据库提供了资源队列(Resource Queue)和资源组(Resource Group)两种资源管理方式,一般使用场景下采用默认配置即可。

06 多态存储

用户可以根据数据热度或者访问模式的不同使用不同的存储方式,以获得更好的查询性能。用户可以为一张表按照一定的规则(比如日期、月份)创建分区表,一张表的各个子分区表可以使用不同的物理存储方式。

支持的存储方式包括:

  • 行存储,数据以行的形式存储在数据页里,适合频繁更新的查询;
  • 列存储,数据以列的形式存储在数据页里,适合OLAP分析型查询;
  • 外部表,数据保存在其他文件系中,如HDFS、S3,数据库只保留元数据信息。

07 生态完整

Greenplum数据库拥有完善的SQL标准支持,包括SQL92、SQL99、SQL2003以及OLAP扩展,是对SQL标准支持最好的开源商用数据库系统之一。同时,由于Greenplum数据库基于PostgreSQL,因此也继承了PostgreSQL对于JDBC、ODBC、C、Python API等接口的支持。

08 高效数据加载

Greenplum还有一个非常神奇的功能——GPload并行加载数据,即允许数据从多个文件系统通过多个主机上的多个网卡加载数据,从而达到非常高的数据传输率。笔者曾经在3个节点的集群上并行加载50GB、2亿行记录的数据,仅用时90s。

此外,Greenplum数据库可以读取和写入多种类型的外部数据源,包括文本文件、XML文件、S3平台文件、Gemfire、Web服务器以及Hadoop生态系统中的HDFS、HiveHBaseKafkaSpark等,同时支持数据压缩以及字符集间的自动转换。

09 高级数据分析功能

Greenplum数据库支持各种过程化编程语言,包括PL/PostgreSQL、PL/R、PL/Python、PL/Java、PL/Perl等语言扩展。在高级数据分析方面,通过Greenplum数据库的MADlib扩展模块,用户可以很方便地利用MPP架构完成大规模并行分析。

10 良好的监控管理和运维体验

Greenplum数据库提供基于Web的可视化工具—Greenplum Command Center(简称GPCC)。GPCC可以监控Greenplum数据库系统的性能、集群健康状态、查询执行及系统资源使用情况,如图2-4所示。

▲图2-4 Greenplum数据库资源监控中心界面

关于作者:王春波,资深架构师和数据仓库专家,现任上海启高信息科技有限公司大数据架构师,Apache Doris和openGauss贡献者,Greenplum中文社区参与者。具有十多年的数据仓库、数据集市、数据中台项目实战经验,对大数据主流技术架构、产品选型与解决方案有深入研究,尤其擅长用优雅的SQL实现复杂的逻辑。

本文摘编自《高效使用Greenplum:入门、进阶与数据中台》,经出版方授权发布。(ISBN:9787111696490)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据DT 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
Greenplum是一个分布式大规模并行处理数据库,在大多数情况下适合做大数据的存储引擎、计算引擎和分析引擎,尤其适合构建数据仓库。本篇重点介绍Greenplum的系统架构和主要功能。我们先从历史演进和所采用的MPP框架对Greenplum做一个概要说明,然后描述其顶层架构,之后详细介绍存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,正是它们支撑Greenplum成为一款理想的分析型数据库产品。本篇最后简单对比Greenplum与另一个流行的大数据处理框架Hadoop,进而阐述可以选择前者的理由。
用户1148526
2021/12/07
4.8K0
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
PostgreSQL的几种分布式架构对比
Citus以插件的方式扩展到postgresql中,独立于postgresql内核,所以能很快的跟上pg主版本的更新,部署也比较简单,是现在非常流行的分布式方案。Citus在苏宁有大规模应用,微软也提供citus的商业支持。下面是citus的架构:
数据库架构之美
2020/01/02
8.6K0
PostgreSQL的几种分布式架构对比
HAWQ技术解析(一) —— HAWQ简介
一、SQL on Hadoop 过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoop中的所有数据的真正价值。SQL在帮助各类用户发掘数据的商业价值领域具有很长历史。 Hadoop上的SQL支持一开始是Apache Hive,一种类似于SQL的查询引擎,它将有限的SQL方言编译到MapReduce中。Hive对MapReduce的完全依赖会导致查询的很大延迟,其主要适用场景是批处理模式。另外,尽管Hive对于SQL的支持是好的开端,但对SQL的有限支持意味着精通SQL的用户忙于企业级使用案例时,将遇到严重的限制。它还暗示着庞大的基于标准SQL的工具生态系统无法利用Hive。值得庆幸的是,在为SQL on Hadoop提供更好的解决方案方面已取得长足进展。 1. 对一流的SQL on Hadoop方案应有什么期待 下表显示了一流的SQL on Hadoop所需要的功能以及企业如何可以将这些功能转变为商业利润。从传统上意义上说,这些功能中的大部分在分析数据仓库都能找到。
用户1148526
2019/05/25
7.5K0
盘点Greenplum 6.0六大新特性及展望
Greenplum 6.0于2019年9月4日正式发布,内核版本从PostgreSQL 8.3升级到PostgreSQL 9.4,数据库的功能和性能得到了巨大的提升,HTAP能力也得到了进一步加强。
IT阅读排行榜
2022/03/11
8520
盘点Greenplum 6.0六大新特性及展望
GreenPlum 简单性能测试与分析(续)
作者介绍:黄辉,16年毕业于电子科技大学并加入腾讯。目前在腾讯云存储产品团队从事云数据库开发工作,喜欢研究分布式数据库相关技术(如:分布式事务,高可用性等)。 之前对 GreenPlum 与 Mysql 进行了 TPC-H 类的对比测试,发现同等资源配比条件下,GreenPlum 的性能远好于 Mysql ,有部分原因是得益于 GreenPlum 本身采用了更高效的算法,比如说做多表 join 时,采用的是 hash join 方式。如果采用同样高效的算法,两者的性能又如何?由于 GreenPlum 是由
腾讯云数据库团队
2018/01/15
4.9K1
GreenPlum 简单性能测试与分析(续)
一文了解GreenPlum
行式数据库是按照行存储的,行存储就是各行放入连续的物理位置,就行我们平时写字一样,一行一行的写,读取的时候也是一行一行的读取。像SQL server,Oracle,mysql等传统的关系型数据库都属于行式数据库范畴。
数据社
2020/06/04
1.5K0
一文了解GreenPlum
Greenplum 架构和核心引擎
Greenplum 架构和核心引擎 Greenplum 架构和核心引擎 1 学习地址 2 1 Greenplum 架构概述 2 1.1 概述简介 2 1.2 MPP无共享静态拓扑 3 1.3 集群内数据分两类 3 1.4 对用户透明 4 1.5 用户数据表 4 1.6 系统表/数据字典 5 1.7 数据分布:并行化处理的根基 5 1.8 多态储存:根据数据温度选择最佳的储存方式 6 1.8.1 行储存 6 1.8.2 列储存 6 1.8.3 外部表 6 2 Greenplum SQL的执行过程 7 2.1
小徐
2020/02/11
1.3K0
Greenplum 架构和核心引擎
GreenPlum管理数据库
在后备Master主机上,移动或者移除数据目录gpseg-1。这个例子移动该目录:
AiDBA宝典
2023/11/16
4560
GreenPlum管理数据库
Greenplum 实时数据仓库实践(9)——Greenplum监控与运维
想要一个数据库长久健康的运行,离不开完备的运维工作,切忌只运而不维。针对Greenplum分布式数据库,集群由大量服务器组成,对运维人员或DBA,不仅要关注数据库本身,还要注意集群中各硬件的状况,及时发现并处理问题。本篇介绍权限与角色管理、数据导入导出、性能优化、例行监控、例行维护、推荐的监控与维护任务六方面常规工作内容,目标是满足Greenplum系统维护、使用等方面的要求,保证提供稳定高效的数据库服务。
用户1148526
2022/04/13
4.1K0
Snova架构篇(二):Greenplum核心组件
当PostgreSQL的后台进程Postgres接收到查询语句后,首先将其传递给查询分析模块,进行词法、语法和语义分析。若是功能性命令(例如建表、创建用户、备份等)则将其分配到功能性命令处理模块;对于查询命(SELECT/INSERT/DELETE/UPDATE)则要为其构建查询树(Query结构体),然后交给查询重写模块。
snova-最佳实践
2019/12/23
1.5K0
Snova架构篇(二):Greenplum核心组件
GreenPlum的数据库性能
Greenplum基于数据库管理系统(DBMS)提供给请求者信息的速率来衡量数据库性能。
AiDBA宝典
2023/11/01
6080
GreenPlum的数据库性能
Greenplum数据库使用总结--目录部分
目录 目录- 2 - 1 Greenplum整体架构信息- 9 - 1.1 架构图示- 9 - 1.2 Master主机与Segment主机任务- 9 - 1.3 数据库分布键分布数据策略- 10 - 1.3.1 HASH策略- 10 - 1.3.2 随机分布- 10 - 1.4 master主节点获取segment节点上的数据顺序- 10 - 2 Greenplum数据库常用知识- 10 - 2.1 Greenplum 概念- 10 - 2.2 OLTP与OLAP的理解- 11 - 2.2.1 描述概念-
小徐
2019/08/05
1.4K0
Greenplum 数据库调优
2、Master 把查询计划分发到Segment,分发模式有两种分别是Parallel和Targeted
小徐
2020/02/28
1.3K0
Greenplum 数据库调优
GreenPlum分布式数据库存储及查询处理
Greenplum是一个分布式数据库系统,因此其所有的业务数据都是物理存放在集群的所有Segment实例数据库上;在Greenplum数据库中所有表都是分布式的,所以每一张表都会被切片,每个Segment实例数据库都会存放相应的数据片段。在下图中sale、customer、vendor、product四张表的数据都会切片存放在所有的Segment上,所有Segment实例同时工作,由于每个Segment只需要计算一部分数据,所以计算效率会大大提升。
AiDBA宝典
2023/11/16
1.3K0
GreenPlum分布式数据库存储及查询处理
Spark查询太慢?试试这款MPP数据库吧!
Greenplum数据库是典型的主从架构,一个Greenplum集群通常由一个Master节点、一个Standby Master节点以及多个Segment实例组成,节点之间通过高速网络互连,如下图所示。Standby Master节点为Master节点提供高可用支持,Mirror Segment实例为Segment实例提供高可用支持。当Master节点出现故障时,数据库管理系统可以快速切换到Standby Master节点继续提供服务。
杰哥的IT之旅
2022/01/25
1.6K0
Spark查询太慢?试试这款MPP数据库吧!
GreenPlum闭源?可以了解一下国产CBDB(Cloudberry Database)
Cloudberry Database(可简称为“CBDB”或“CloudberryDB”)是面向分析和 AI 场景打造的下一代统一型开源数据库,搭载了 PostgreSQL 14.4 内核,兼容 PostgreSQL 和 Greenplum Database 生态,采用 Apache License 2.0 许可协议,由北京酷克数据HashData科技有限公司开发,目前源码已公开。
AiDBA宝典
2024/06/07
1.1K0
GreenPlum闭源?可以了解一下国产CBDB(Cloudberry Database)
Greenplum性能优化之路 --(一)分区表
分区表就是将一个大表在物理上分割成若干小表,并且整个过程对用户是透明的,也就是用户的所有操作仍然是作用在大表上,不需要关心数据实际上落在哪张小表里面。Greenplum中分区表的原理和PostgreSQL一样,都是通过表继承和约束实现的。
lambgong
2018/12/18
22.6K0
Greenplum性能优化之路 --(一)分区表
数据运营者的福音:海量数据处理利器Greenplum
前言:近年来,互联网的快速发展积累了海量大数据,而在这些大数据的处理上,不同技术栈所具备的性能也有所不同,如何快速有效地处理这些庞大的数据仓,成为很多运营者为之苦恼的问题!随着Greenplum的异军突起,以往大数据仓库所面临的很多问题都得到了有效解决,Greenplum也成为新一代海量数据处理典型代表。本文结合个推数据研发工程师李树桓在大数据领域的实践,对处理庞大的数据量时,如何选择有效的技术栈做了深入研究,探索出Greenplum是当前处理大数据仓较为高效稳定的利器。
个推君
2019/03/12
9660
数据运营者的福音:海量数据处理利器Greenplum
Greenplum数据库快速调优
为进程分配内存的百分比,默认是50,vm.overcommit_memory = 2 的情况下生效
小徐
2021/01/27
2.8K0
Greenplum数据库快速调优
海量数据处理利器greenplum——初识
简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。 第二,支持分布式事务,支持ACID。保证数据的强一
cloudskyme
2018/03/20
2.4K0
海量数据处理利器greenplum——初识
推荐阅读
相关推荐
Greenplum 实时数据仓库实践(3)——Greenplum与数据仓库
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档