Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >云数据库的本质是什么?

云数据库的本质是什么?

作者头像
IT大咖说
发布于 2018-08-08 01:55:16
发布于 2018-08-08 01:55:16
2.4K0
举报
文章被收录于专栏:IT大咖说IT大咖说

内容来源:2017 年 11 月 18 日,北京偶数科技创始人兼CEO常雷在“第七届数据技术嘉年华”进行《云数据库的本质》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。

阅读字数:4055 | 11分钟阅读

摘要

数据仓库的演进分为三代,第一代数据仓库采用共享存储架构(比如Oracle Exadata),可扩性差,使用专有硬件,价格高。第二代数据仓库采用MPP架构,采用无共享架构(比如Teradata),使用普通X86服务器,可扩展至几十节点,但很难满足大数据需求,架构不够灵活,比如难于实现秒级扩容。

Apache HAWQ属于第三代数据仓库,使用存储与计算分离架构,可扩展至数千节点,架构灵活。另外,HAWQ从著名第二代MPP数据仓库系统Greenplum Database演化而来,继承了Greenplum Database的SQL以及对第三方工具的兼容性,所以,在兼容性和性能方面大大优于其他第三代Hadoop SQL引擎。

获取嘉宾演讲视频及PPT,扫一扫下方二维码即可。

数据库背景

数据生态系统

2016年全球数据仓库市场规模已达数百亿美金,主要由几大部分组成。最底层是云的部分,包括公有云私有云。往上为数据层,这部分中传统的关系数据库和NoSQL、NewSQL包含在OLTP中,流的处理和采集等归属于ETL,还有就是大家最关心也是占比最大的数据仓库领域,再上层则是BI和目前最火热的机器学习/AI。

以上每一部分的市场其实都不小,数据的增量也基本保存在10%-45%之间,即使是大家不太注意的ETL的市场也接近了100多亿美金。

而我们接下来将着重介绍的是数据库的部分,首先来回顾下数据库的历史。

数据库:55年

数据库这个词首次出现至今已过了55年,最早是由Inverted File Database System和System Development Corporation这两家公司在一个军方项目中提出的,虽然这不一定是世界上第一个数据库,但是DataBase这个单词却是首次被提出。

后续数据库经历了几个比较繁荣的发展阶段,第一阶段是在1960年代此时的数据还是网状/层次模型结构,第二阶段的1970-1990年代主要是关系性数据库,第三阶段从2000年开始逐渐出现了一些新型数据库。

数据库的核心

数据库中核心的研究领域主要分为几部分。第一部分为数据模型和查询语言,数据模型包含数据的表示以及理论支持,有模型之后当然就需要有查询语言来让程序访问数据,最初的查询语言类似于程序语言,相对比较复杂,后续才发展出了现在的SQL语句。第二部分为查询优化和执行,这也是数据库最核心的部分,面临复杂查询时优化和执行必不可少。第三部分为索引和存储,数据库的存储其实非常复杂,经历了很多的演练,从最早的行存慢慢演化出来了列存以及存储于演示分离的架构等。第四部分为事务处理,传统意义上的数据库存储包含索引、存储、事务这几个部分,这里之所以将事务处理分离开来,是因为相对来说这部分比较独立,在各个不同数据库中也都将它独立出来了。

数据库演化

这张图展示的是网状/层次模型的解析图,左下角是网状模型存储的数据,它们通过指针相互关联,可以看到整个模型中存在大量的指针,相对来说还是比较复杂。网状模型数据的存取使用的是一种过程性的语言,基本上类似于写程序语言,用起来很不方便。

1970年开始Edgar F. Codd提出了关系模型,用数学的理论形式来表示数据模型,简单易用是它最大的优先。后来虽然出现了NoSQl、HBse、NewSQL等各种数据库,但是到最后大家都会发现SQL语言还是最简单的,不管是通过key value的形式还是语言的形式访问数据库都没有被用户所熟悉,因为相对来说SQL语句更类似与自然语言能被很好的接受。

2000年之后出现了第三大类模型,这一类的模型数量相对要多一些,包括Graph、Tree、KV等模型,其中Tree类型的数据库之前有一段时间很火热,MongoDB就属于这一类。这些比较热门的数据库一般在10多年前研究界都会有所研究。

其他分类方法

数据库的分类不光可以通过模型来分,也还有其他各种方法。比如事务处理和分析处理,事务交易是目前大部分的数据库涉及的领域,分析处理则是从70-80年代开始出现,分析类的数据仓库也是大数据中涉及最多的一部分。第二种分类方式是并行和串行,串行的出现的时间相对并行要早一些,因此早期的数据大多都是串行。第三类是基于硬件的分类,硬件和软件向来都不可分离,早期的数据库都是基于CPU,而随着硬件的发展数据库也做出了相应的变化,不过由于硬件的局限性目前主流的还是CPU。第四类是云数据库和非云数据库,虽然从运维的层次来看云数据库相对传统数据库简化了很多,但它本质上是一种商业模式,真正在数据库核心上的改变并没有多少。

介绍完分类方法之后,我们重点来看下其中的分析处理和云数据库。

数据仓库的演进

分析处理主要涉及的就是数据仓库。Teradata是最早期做数据仓库商业化的公司,于1984年推出了第一个MPP数据仓库。需要注意的是最初的数据仓库应用技术并不是MPP而传统的共享存储方式。传统数仓可扩展性相对较差,最多只能到十几个节点,第一代MPP解决了部分可扩展性问题。2000年左右又出现了第二代MPP,使用常见的X86架构硬件实现了并行处理。MPP的缺陷在于不能应付太大的数据规模,基本上100个节点就到了瓶颈,主要是因为无法很好的管理节点。所有第三代数仓出现了,Hive, HAWQ, SparkSQL, Snowflake等就是属于这一类,它有一个明显的特点就是实现了存储和计算的完成分离,能够根据资源调度计算,可扩展性得到了很大提升。

数据仓库引擎比较

这里将这三代数据仓库放在几个象限内进行了比较,第一个维度是性能和兼容性,第二维度是可扩展性和开源、开放性。传统的共享存储数据仓库被放在左上角,中间部分是MPP,由于云数据库的本质架构并无太多变化,所以也位于中间。最后是第三类系统,他们性能往往不如老牌数据库优化的好,兼容性也较差。

NewDW的细分类别

根据存储的不同新一代数仓还能进行更细的划分。第一类是SQL on Hadop,SparkSQL、Hive以及早期的HAWQ都属于这一类。第二类是SQL on Object Store,随着云计算的发展很多创业公司都将数据存储在云端,阿里的对象存储就有很多中小型公司在使用。前两大类虽然在架构上还不错,但是都有着同样的局限性,想要取代第二代数仓还有很远的路要走。这也就是第三大类Hybrid(混合存储)出现的目的,这一类有着自己的原生存储,对外部存储可插拔,其中走的比较前面一点的数据库有Impaia和HAWQ。

云数据库

云数据库的创新并不多,大部分都是将现有的数据库搬到云上,大致有这样几个分类。第一类是数据库服务,主要是对数据库做了一些工程性工作,比如新增前端界面,然后做部署、收费和一些安全控制。第二类就更简单了,直接将虚拟机镜像放在云端。第三类容器镜像针对的是传统的TP,比如Mysql和Postgre就有一些可以直接使用的容器镜像,对于并行的数据库还没有很好的方案。

云数据库相对于传统数据库不同之处可能只有这几点,部署运维比较简单,收费模式不同,能做到简单的弹性伸缩

OuShu DataBase的前世今生

HAWQ主要发展历程

这就是HAWQ的发展历程,从刚开始提出创意到做出原型系统, 再到第一代产品完成然后到后来开源,最后成立创业公司,基本上是这样一个过程。2017年的时候我们又推出了新的执行器,性能上有了10倍的提升。

Greenplum版本演进

HAWQ的原型系统最初是基于Postgre和hadoop,后来在进入Greenplum之后我们有了Greenplum的源码,所以后来将Postgre替换成了Greenlpum。上图是Greenplum Database最初始的架构,非常经典的MPP模式,每个节点上有几个单节点的数据库,每个单节点都有一些mirror。比如上图的结构中有4个节点,每个节点中有2个主数据库,还有两个mirror,这时候的并行度就是8。

上图是HAWQ的Alpha版本的架构,这个版本还不能算是第三代的数据仓库,因为这时只是单纯添加了存储,计算和调度都没有改变,解决的问题有限,包括Recovery、动态扩容、调度、固定并行等问题都还存在。

1.0版本中我们将mirror 去除了,使得Recovery更加简单,解决了原先4个问题的其中之一。

2.0版本做了大量的架构变动,这一代开始才真正的达到了存储与计算的分离,实现了秒级扩容,可以根据数据进行灵活调度,以及根据查询规模决定并发大小等。在这之后也能和容器云平台进行很好的结合。

HAWQ3.0目前只在企业版本中才会发布,开源版本还未发布。数据库最核心的部分就是执行器和优化器,针对这点我们在3.0中完全重写了一个新的执行器,为此做了大量的工作,每个算法都进行了优化,因此在性能上有很大的提升。

这里展示的是4.0将要做的工作,HAWQ的存储完全换了一套,可以认为是一个NewSQL引擎,但相对于目前大多数只关注事务型处理的NewSQL,我们还会从分析型数据仓库的角度来做大规模的跨数据中心的复制。4.0的整个架构基本上是P2P,没有master,支持广域网的复制。

以上为今天的全部分享内容,谢谢大家!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT大咖说 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【大数据100分】大数据架构及行业大数据应用(中级教程)
【大数据100分】南大通用CTO武新:大数据架构及行业大数据应用〖大数据中级教程〗 主讲嘉宾:武新 主持人:中关村大数据产业联盟 副秘书长陈新河 承办:中关村大数据产业联盟 武新,南大通用高级副总裁兼CTO,法国奥尔良大学和法国国家科研中心博士;南大通用GBASE系列数据库产品的总设计师。在著名的甲骨文公司任职12年,是世界顶级的Oracle数据库专家。2010年获得中组部实施的国家“千人计划”荣誉(海外高层次人才引进计划),是国内基础软件行业唯一入选的数据库技术专家。对目前最新兴的列存储技术、压缩技术
大数据文摘
2018/05/21
1.2K0
大数据分析:机器学习算法实现的演化
下面将会对机器学习算法的不同的实现范式进行讲解,既有来自文献中的,也有来自开源社区里的。首先,这里列出了目前可用的三代机器学习工具。 传统的机器学习和数据分析的工具,包括SAS,IBM的SPSS,Weka以及R语言。它们可以在小数据集上进行深度分析——工具所运行的节点的内存可以容纳得下的数据集。 第二代机器学习工具,包括Mahout,Pentaho,以及RapidMiner。它们可以对大数据进行我称之为粗浅的分析。基于Hadoop之上进行 的传统机器学习工具的规模化的尝试,包括Revolution Anal
机器学习AI算法工程
2018/03/13
1.3K0
数据库横向对比与前沿技术分析探讨
作者丨教授老边 云计算、大数据、高性能存储与计算系统架构专家 1 何需数据库? 互联网和移动互联网络的快速发展带来了数据产生速率的极大增长,每时每刻都有数以十亿量级的设备在生产出巨大体量的数据。 从数据产生的渠道来看,主要分为两类,一类是人类活动生成的数据,诸如我们日常的网页浏览、收集等移动设备的使用;另一类是机器产生的数据,如生产线设备、物联网设备、传感器、无线网络等。 从数据生成的速度来看,据国际数据公司IDC的监测数据显示,2013年,全球大数据库储量为4.3ZB(相当于47.24亿个1TB容量的移
AI科技评论
2022/05/30
7210
数据库横向对比与前沿技术分析探讨
数据库的发展与数据模型
数据库的概念最早可以追溯到1960年,经过多年的发展和演变才有了现在使用广泛的关系型数据库,被企业广泛采用。
一头小山猪
2020/05/19
9780
数据库的发展与数据模型
浅析数据库的历史
让我们把时钟拨回到上世纪 60 年代,美国通用电气公司(General Electric Company,以下简称 GE)创造了早期的基于网状模型的数据库系统 Integrated Data Store,简称 IDS。
roseduan
2022/11/23
8630
浅析数据库的历史
云原生数据库设计新思路
在讲新的思路之前,先为过去没有关注过数据库技术的朋友们做一个简单的历史回顾,接下来会谈谈未来的数据库领域,在云原生数据库设计方面的新趋势和前沿思考。首先来看看一些主流数据库的设计模式。
PingCAP
2021/01/14
1.7K0
HAWQ技术解析(一) —— HAWQ简介
一、SQL on Hadoop 过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoop中的所有数据的真正价值。SQL在帮助各类用户发掘数据的商业价值领域具有很长历史。 Hadoop上的SQL支持一开始是Apache Hive,一种类似于SQL的查询引擎,它将有限的SQL方言编译到MapReduce中。Hive对MapReduce的完全依赖会导致查询的很大延迟,其主要适用场景是批处理模式。另外,尽管Hive对于SQL的支持是好的开端,但对SQL的有限支持意味着精通SQL的用户忙于企业级使用案例时,将遇到严重的限制。它还暗示着庞大的基于标准SQL的工具生态系统无法利用Hive。值得庆幸的是,在为SQL on Hadoop提供更好的解决方案方面已取得长足进展。 1. 对一流的SQL on Hadoop方案应有什么期待 下表显示了一流的SQL on Hadoop所需要的功能以及企业如何可以将这些功能转变为商业利润。从传统上意义上说,这些功能中的大部分在分析数据仓库都能找到。
用户1148526
2019/05/25
7.4K0
数据中台怎么选型?终于有人讲明白了
数据仓库选型是整个数据中台项目的重中之重,是一切开发和应用的基础。而数据仓库的选型,其实就是Hive数仓和非Hive数仓的较量。Hive数仓以Hive为核心,搭建数据ETL流程,配合Kylin、Presto、HAWQ、Spark、ClickHouse等查询引擎完成数据的最终展现。而非Hive数仓则以Greenplum、Doris、GaussDB、HANA(基于SAP BW构建的数据仓库一般以HANA作为底层数据库)等支持分布式扩展的OLAP数据库为主,支持数据ETL加工和OLAP查询。
Lucifer三思而后行
2022/04/13
2.4K0
数据中台怎么选型?终于有人讲明白了
数据库技术的发展
(1)第一代数据库系统是指层次模型数据库系统(基于树形结构)和网状模型数据库系统(基于有向图结构)
ellipse
2019/08/16
9410
腾讯云数据库王义成:未来数据库将发生根本性变革
▲点击上方 腾讯云数据库 关注 传统的数据库+云的模式没有给用户带来很多惊喜,云原生成为新的大方向。 IT产业正在经历新的周期,离散的私有IT基础设施转向集中式,这在产业发展史上已经不甚新鲜,主机时代、PC时代我们都曾经历过不同的转变,从主机的集中到个人计算机的分散再到云计算,IT的发展似乎也在遵循着“否定之否定”的钟摆定理。 数据库作为计算机架构的核心底层软件,同样处于变化之中,其历史可以追溯到1970年,50年来数据库领域厂商进进出出,但传统数据库厂商的地位从未动摇,直到云计算的出现。 Gart
腾讯云数据库 TencentDB
2019/08/02
2.5K0
腾讯云数据库王义成:未来数据库将发生根本性变革
从架构特点到功能缺陷,重新认识分析型分布式数据库 (转载非原创)
转载来源: https://www.cnblogs.com/ivan-uno/p/9051225.html
xlj
2022/05/03
5870
首期TVP修炼营——智能时代,大数据该如何破局?
2019 年 3 月 16 日,在北京国粹馆举行了首期 TVP 修炼营,这是一场专属于热爱大数据的技术专家们的活动。TVP,即腾讯云最具价值专家(Tencent Cloud Valuable Professional),是腾讯云实现数字化转型、建设智慧生态的重要战略计划之一,旨在通过建立与行业技术专家的交流平台,促进腾讯云与技术专家和用户之间的有效沟通,从而提升腾讯云产品能力,打造云计算技术生态,实现“用科技影响世界”的美好愿景。
TVP官方团队
2019/03/19
11.9K0
首期TVP修炼营——智能时代,大数据该如何破局?
一家公司为什么要做数据库和AI两个赛道?
目前国内数据库产品百花齐放,创业者们身在时代机遇里满怀热情,想要有一番作为。看清客户需求,找准自己的定位非常重要。
用户6543014
2023/03/02
6270
一家公司为什么要做数据库和AI两个赛道?
从Snowflake看数据仓库未来演进方向:计算存储分离、弹性计算、统一存储和Serverless化
作者 | 蔡芳芳 采访嘉宾 | 陈龙 2020 年 9 月,主打云数据仓库产品的硅谷独角兽 Snowflake 正式登陆纳斯达克,首日 IPO 筹资高达 33.6 亿美元,是有记录以来金额最大的软件 IPO,突破了 Uber 2019 年 5 月上市创下的最大规模纪录。 如今,大数据技术早已进入普及期,数据仓库 / 分析领域更是巨头林立,既有传统厂商 Oracle、Teradata,也有开源软件 Hadoop,还有云厂商 AWS Redshift、Google Bigquery,在这样一个竞争环境下
腾讯云大数据
2020/11/30
1.3K0
一文遍历大数据架构变迁史
作者 | 松子(李博源) 策划 | Tina 编者按:《透过数字化转型再谈数据中台》系列连载 6-8 篇左右,作者结合自己在数据中台领域多年实践经验,总结了数据架构知识、BI 知识,以及分享给大家一些产业互联网实施经验。本文是系列文章中的第三篇。 在前面两篇 “关于数字化转型的几个见解 ”、“唯一性定理中的数据中台”提到了数据中台发展问题。比如概念发展太快,信息量过载,以及存在广义、狭义的数据中台定义的差别等,涉及到的这些知识都离不开数据架构的范畴,所以这一篇我会通过大数据架构发展的视角来总结与分享。(一些
深度学习与Python
2023/04/01
7630
一文遍历大数据架构变迁史
时序数据库破局开放探讨
近几年IoT、IIoT、AIoT和智慧城市快速发展,时序/时空数据库成为数据架构技术栈的标配。根据国际知名网站DB-Engines数据,时序数据库在过去24个月内排名高居榜首,且远高于其他类型的数据库,可见业内对时序数据库的需求迫切。
用户6543014
2022/06/07
6590
时序数据库破局开放探讨
分布式关系数据库探索 - NewSQL 演化过程
回味过去,展望未来,开始分布式数据库探索之旅,首先了解历史,本文大致梳理一下数据库发展过程,从1970年到2018年,数据库的发展过程,仅供参考,交流和学习,感谢您阅读!
jinlin
2018/10/18
2.3K0
偶数科技OushuDB数据库巡检脚本
Oushu Database(简称OushuDB)是新一代极速云数仓,让企业用户轻松构建核心数仓、数据集市、实时数仓以及湖仓一体数据平台。OushuDB由国人自主研发,符合国家信创标准;通过计算存储分离架构解决了传统数据仓库高成本、高门槛、难维护、难扩展的问题。同时支持各大公有云和私有云。
AiDBA宝典
2023/04/26
1.1K0
偶数科技OushuDB数据库巡检脚本
铺天盖地云原生,什么才是真正的云原生数据仓库?
导语 | 分析型数据仓库经历了共享存储、无共享MPP、SQL-on-Hadoop几代架构的演进,随着云计算的普及,传统的数据仓库架构在资源弹性,成本等方面已经很难适应云原生的要求。本文由偶数科技 CEO,腾讯云TVP 常雷在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」 的《新一代云原生数据仓库的应用》演讲分享整理而成,为大家详细剖析新一代云原生数据仓库的架构、原理和实现技术,以及如何充分应用云原生数据仓库的特点来实现云上大数据应用。 点击可观看精彩演讲视频
腾讯云开发者
2021/05/26
2.9K0
听说Mysql你很豪横?-------------各种数据库介绍(为什么Mysql数据库能这么火热)
非关系型数据库严格上不是一加粗样式种数据库,应该是一种数据结构化存储方法的集合,可以是文档或者键值对等
不吃小白菜
2020/09/03
1.6K0
听说Mysql你很豪横?-------------各种数据库介绍(为什么Mysql数据库能这么火热)
推荐阅读
相关推荐
【大数据100分】大数据架构及行业大数据应用(中级教程)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档