历史上,数据分析需求的不断提升(更大的数据规模、更快的处理速度、更低的使用成本)和计算基础设施的不断进化(从专用的高端硬件、到低成本的商用硬件、到云计算服务),这两大因素推动数据仓库的架构大体经历了三个时代:软硬一体的一体机时代、存算一体的分布式时代以及存算分离的云原生时代。
这篇文章构思了很久,因为我不是做计算机底层研究的,也没做过数据库,一直在应用层打转转,最多读过几篇相关的文章,所以担心我的知识储备不够写这么一篇比较严肃的话题,后来有朋友说服了我,可以不聊纯技术方面,而是谈谈笔者对大数据时代,计算与存储应该分离吗?于是就有了本文。注意,本文不牵扯到具体的技术细节和代码,要是被读者发现了有错误,请大胆指出。
这篇文章是我一直想写的一篇,因为“计算和存储分离”最近几年在大家的视野中出现得越来越多,但其实很多对于其到底代表着什么也是模糊不清,这里我查阅了很多的资料再结合平时自己的理解,聊聊到底什么是“计算和存储分离”
同样,在数据中心多年的发展历程中,计算与存储也经历了多次分分合合。从大型机的计算与存储紧耦合,到小型机经典的IOE存算分离架构,再到随云兴起的超融合让存算再次融合,计算与存储宛如一对多年的CP,时而亲密无间,时而又若即若离。
随着云时代的到来,数据库也开始拥抱云数据库时代,各类数据库系统(OLTP、OLAP、NoSQL等)在各内外云平台(AWS、Azure、阿里云)百花齐放,有开源的MySQL、PostgreSQL、MongoDB,传统数据库厂商的SQLServer、Oracle,云厂商自研的Aurora、Redshift、PolarDB、AnalyticDB、AzureSQL等。有些数据库还处于Cloud Hosting阶段,仅仅是将原有架构迁移到云主机上,利用了云的资源。有些数据库则已经进入了Cloud Native阶段,基于云平台IAAS层的基础设施,构建弹性、serverless、数据共享等能力。
根据Starburst联合创始人贾斯汀·伯格曼的经验,想要让企业数据架构经得起时间的考验,关键之一就是拥抱存算分离。
|导语 随着企业大数据规模和应用的增长和发展,计算与存储分离的架构渐渐成为主流,它解决了计算量和存储量不匹配问题, 实现了算力的按需使用,但也引来了一些新的问题。腾讯云EMR团队与Alluxio社区合作,探索出了开箱即用的计算存储分离优化版本,大幅优化网络带宽,带宽削峰20%-50%,节省总带宽10%-50%,同时能在IO密集型场景提升性能5%-40%,下面就让我们来一探究竟。 一、当前大数据挑战 近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构
今天的话题有两层含义,第一层是说相对于我们所熟知的集中式数据库来说,分布式数据库是与之不同的。在做数据库选型的时候,我们要充分的了解其间的不同,才能做出较为科学的决策。我想很多数据库从业人员都了解其中的不同,不幸的是,他们不是数据库选型的决策者,大多数决策者并不了解这一点。
导语 | 随着企业大数据规模和应用的增长和发展,计算与存储分离的架构渐渐成为主流,它解决了计算量和存储量不匹配问题, 实现了算力的按需使用,但也引来了一些新的问题。腾讯云EMR团队与Alluxio社区合作,探索出了开箱即用的计算存储分离优化版本,大幅优化网络带宽,带宽削峰20%-50%,节省总带宽10%-50%,同时能在IO密集型场景提升性能5%-40%,下面就让我们来一探究竟。 一、当前大数据挑战 近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计
一个是成本问题,随着累积的数据量的增大,大数据业务量的增多,数据存储和处理的成本越来越高,企业数据基础设施的投资越来越大,这部分投资挤占了企业大数据业务创新的空间。
存算分离是一个很火的话题,基本上各个数据库都说自己已经实现,或者即将上线存算分离的架构。但事实上对于不同类型的数据系统,如何定义“存”和“算”是不同的。本系列会简介milvus的存算分离架构,结合具体问题场景聊一些作者对这个概念的看法。
摘要 在基于 Kubernetes 和 Docker 构建的私有 RDS 中,普遍采用了计算存储分离架构。该架构优势明显, 但对于数据库类 Latency Sensitive 应用而言,IO 性能问题
大规模检索系统一直都是各个公司平台业务的底层基石,往往是以千台裸金属服务器级别的超大规模集群的方式运行,数据量巨大,对于性能、吞吐、稳定性要求极为苛刻,故障容忍度很低。
企业数字化转型过程中,数据价值被显著放大,大数据应用成为不少企业探索的重点。 从技术上看,大数据业务由于数据体量大,且数据量很多时候呈急速膨胀状态;在进行大数据计算分析时,对资源的需求呈现浪涌式特征,又偶有突发性,因此通过上云充分发挥资源按需使用按需付费的优势,成为了不少企业在探索大数据应用时的常见模式。 这其中,企业在综合考量数据安全性、可扩展、可管理和成本效益等因素后,混合云部署的方式就成为了企业的主流选择。 近日,腾讯云存储高级产品经理贺永红在混合云主题论坛上发表演讲,详解了大数据应用上云的新
在基于 Kubernetes 和 Docker 构建的私有 RDS 中,普遍采用了计算存储分离架构。该架构优势明显, 但对于数据库类 Latency Sensitive 应用而言,IO 性能问题无法回
第一代的“存算一体”数据库是80年代的IBM大机,提供计算、数据库、存储、中间件,解决了核心交易场景对性能和可靠性的诉求,但他的缺点同样明显,贵!高昂的采购费用、封闭的硬件生态和高昂的售后维保价格,大机的垄断,即使是银行这类不差钱的企业也感到肉疼。大机有限的存储扩展能力,也限制了数据库的容量。
近年来,随着大数据规模的增长,以及大数据应用的发展,大数据技术的架构也在持续演进。早期的技术架构是计算资源和存储资源高度融合,计算和存储资源一体化存在以下明显的挑战:
存算分离,现在已经成为云原生数据库的标配, 开始大规模流行。存算分离后, 进一步使计算单元和存储单元解耦,每个单元可以实现单独的动态扩缩容,并且可以通过冗余配置,实现对单点故障的容忍度, 可以说是近年来数据库市场上的一大进步。
Nebula Graph 是一个高性能的分布式开源图数据库,本文为大家介绍 Nebula Graph 的整体架构。
在基于 Kubernetes 和 Docker 构建的私有 RDS 中, 普遍采用了计算存储分离架构. 该架构优势明显, 但对于数据库类 Latency Sensitive 应用而言, IO 性能问题无法回避, 下面分享一下我们针对 MySQL 做的优化以及优化后的收益.
吕亚霖,2019年加入作业帮,作业帮基础架构-架构研发团队负责人,在作业帮期间主导了云原生架构演进、推动实施容器化改造、服务治理、GO微服务框架、DevOps的落地实践。
作者 | 腾讯游戏公共数据平台部基础数据平台团队 开源运动旗手 Eric S. Raymond 在《大教堂和集市》中说,一个项目若想成功,“要将用户当做合作者”。这也一直是 StarRocks 社区的理念。对于 StarRocks 社区,腾讯游戏公共数据平台部既是 StarRocks 社区的用户,也是合作者。他们为腾讯数百款游戏提供基础的数据平台支撑,业务环境复杂,技术组件多样。 他们在数据分析加速项目中,经过多方的技术栈选型,引入 StarRocks 作为数据分析平台的引擎底座。同时,在和
随着交流机会的增多(集中在金融行业, 规模都在各自领域数一数二), 发现大家对 Docker + Kubernetes 的接受程度超乎想象, 并极有兴趣将这套架构应用到 RDS 领域. 数据库服务的需求可以简化为:
随着交流机会的增多(集中在金融行业,规模都在各自领域数一数二),发现大家对 Docker + Kubernetes 的接受程度超乎想象, 并极有兴趣将这套架构应用到 RDS 领域。数据库服务的需求可以简化为:
12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。 在 QCon 盛会上,腾讯云大数据专家工程师陈龙为大家带来了题为《看云上 ClickHouse 如何做计算存储分离》的分享,以下是分享整理全文。 各位朋友大家好,我是陈龙,我今天给大家分享的内容是:看云上 ClickHouse 如何做计算存储分离。 首先介绍下我自己,我来自腾讯云
来源:数据蒋堂 作者:蒋步星 本文长度为2240字,建议阅读5分钟 本文通过剖析存储过程的优点,探查存储过程的潜在风险及应用场景。 存储过程是数据库领域中应用非常广泛的技术,关于它的利弊讨论由来已久,我们这里针对存储过程的两个公认度较高的优点进行剖析,从而更清楚存储过程的潜在风险及应用场景。 存储过程利于界面与逻辑分离! 界面与逻辑分离是现代应用开发的一个基本准则。相对于后台数据处理逻辑,界面会有更多样性的环境,如PC、手机等,而且业务稳定性也不强,经常会改。如果能把两者分离,开发和维护界面时绑着数
导语 | 分析型数据仓库经历了共享存储、无共享MPP、SQL-on-Hadoop几代架构的演进,随着云计算的普及,传统的数据仓库架构在资源弹性,成本等方面已经很难适应云原生的要求。本文由偶数科技 CEO,腾讯云TVP 常雷在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」 的《新一代云原生数据仓库的应用》演讲分享整理而成,为大家详细剖析新一代云原生数据仓库的架构、原理和实现技术,以及如何充分应用云原生数据仓库的特点来实现云上大数据应用。 点击可观看精彩演讲视频
12月6日-7日,由InfoQ 中国主办的综合性技术盛会QCon全球软件开发大会深圳站召开。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向资深的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
MySQL在达到一定数据量(我的经验是3T、单表1亿)时,复杂查询会有明显的延迟。继续分库分表,会严重增加业务复杂性,尤其对很多非互联网产品来说,急需一个分布式存储。
大数据领域对ClickHouse可谓非常的熟悉了。这个最初由俄罗斯的Yandex公司开发并开源的数据仓库,以单表查询快闻名于世,一改传统Hadoop技术栈“笨,重,慢”的特点。很多时候,ClickHouse的性能相对于Hadoop技术栈,性能有百倍的提升。 ClickHouse的查询性能快,不仅仅在老东家Yandex得到了证实,更是征服了世界各地大量的互联网公司,成为了它们数据分析的不二选择。 然而开源版的ClickHouse要想用好并不是很容易。很多企业用ClickHouse不但没有见到它传说中的极速
云原生架构模式是一种设计哲学,旨在利用云计算的优势,提高软件的可靠性、可扩展性和灵活性。下面是几种常见的云原生架构模式的概念讲解:
1/ 正所谓:华山派早年曾无剑宗、气宗之分。如果从更大视角来看,互联网是剑宗,区块链是气宗。如果单看互联网,商业应用是剑,数字基建是气。同样,单看区块链,挖矿基建是剑,应用落地是气。
中国电信大数据集群每日数据量庞大,单个业务单日量级可达到 PB 级别,且存在大量过期数据(冷数据)、冗余数据,存储压力大;每个省公司都有自己的集群,以及多个收集全国各省级业务信息的集团大数据集群,导致数据分散冗余,省集群与集团集群数据无法共享,跨地域任务延迟高。
日前,TDSQL新敏态引擎正式发布,支持无限扩展、在线变更,可以完美解决对于敏态业务发展过程中业务形态、业务量的不可预知性,高度适配金融敏态业务。 该引擎100%兼容MySQL,计算/存储资源均可独立全透明弹性扩缩容,实现了PB级存储的Online DDL;计算层每个节点均可读写,轻松支撑千万级QPS流量,可以有效应对业务的变化。针对海量数据存储的场景,实现最高20倍压缩率的超高压缩比存储能力,大幅节省资源成本。其独有的数据形态自动感知特性,使数据能根据业务负载情况实现自动迁移,打散热点,降低分布式事务
All in 云+时代,数据库的高可用性、按需付费、按需扩展等属性解放了大批开发者。腾讯发布的自研数据库CynosDB作为国内首款同时兼容MySQL和PG的云原生数据库在业内引发热议,还不够了解TA?那么本期分享你一定不能错过!
TDMQ 是腾讯云基于 Apache Pulsar 开源项目开发的消息队列产品,主打金融等行业应用,适用于对消息通讯要求高可靠、强一致的场景。TDMQ 在保障高可靠性的同时,还能保障消息读写的高吞吐量,而且提供丰富的消息类型,确保不同的业务场景都能有效覆盖。
“如果说中小企业是一片片沿溪而耕的农田,那么我们的愿景就是建一座大坝来管理好上游的水资源,来灌溉下游企业。” 腾讯云数据库高级工程师杨珏吉说这是他投身数据库领域的初衷。初创企业、中小企业在数据库层面的最大需求就是低成本。助力企业降本增效是腾讯云数据库一直在努力的方向,尤其在疫情冲击下的经济社会中,更是一份社会责任。 在技术上深研,突破极致弹性,让客户像使用自来水一样的使用数据库,用多少、怎么用由客户决定,计费由使用量决定,这是杨珏吉及其团队给出的答案。TDSQL-C Serverless 数据库通过使用计算
日前,腾讯云专家工程师严俊明老师,在云+社区技术沙龙「云原生」专场,分享了基于对象存储的云原生数据湖最新技术突破,包括云原生数据湖业务场景以及技术架构。
Elasticsearch技术栈一直是日志、安全、搜索场景的开源首选方案。随着数据规模的海量增长,数据的写入、存储、分析、搜索、排序等场景都会遇到非常大的挑战(存储成本大、写入查询慢等),同时客户降本增效的诉求也越来越高。本文主要解析基于腾讯云ES构建低成本、高性能、高可用日志平台所利用的核心架构和技术。基于腾讯云ES自研存算分离、读写分离、查询/IO并行化、查询裁剪等一套完整的降本增效解决方案。本文将围绕以下几个关键自研技术点进行深入分析:
12 月 3 日、4日,2022 Apache IoTDB 物联网生态大会在线上圆满落幕。大会上发布 Apache IoTDB 的分布式 1.0 版本,并分享 Apache IoTDB 实现的数据管理技术与物联网场景实践案例,深入探讨了 Apache IoTDB 与物联网企业如何共建活跃生态,企业如何与开源社区紧密配合,实现共赢。
日前,腾讯云高级工程师程力老师在 ArchSummit 全球架构师峰会上分享了存算分离架构下的数据湖架构。
今天,中国信息通信研究院“原生聚力,云数赋能”第四届云原生产业大会首日活动取得圆满成功。作为云原生领域盛会,本次大会将邀请云原生业界顶级专家代表共探云原生产业发展方向,见证云原生发展阶段性成果,分享云原生应用先进经验。 腾讯云数据库专家团携顶尖云原生数据库TDSQL-C亮相,腾讯云数据库技术负责人程彬在主论坛分享了云原生时代数据库的技术沿革,四位鹅厂专家在下午的《云原生数据库架构探索与实践》专场中详细剖析了腾讯云在云原生数据库领域的技术演进历程、架构探索、问题解决思路和发展方向。 此外,凭借创新技术和领先实
OLAP 是一个很卷的赛道,创业公司也众多。在本文中,笔者基于 10+ 年的大数据与数据仓库的工作经验,就目前的主流趋势:离在线一体化、引擎一体化、云原生化等写一些思考,抛砖引玉,希望能与各位共同探讨。
上面部分引用了维基百科对图数据库的词条来讲解何为图数据库,而本文整理于图数据库 Nebula Graph 交流群中对图数据库的零碎知识,作为对图数据库知识的补充。本文分为小知识及 Q&A 两部分。
由中国信息通信研究院、工信部新闻宣传中心联合主办,开放数据中心委员会(ODCC)、《人民邮电》报、风向Talks联合组织的“2021数据中心高质量发展大会”,于5月13日在国家会议中心召开,在2021年世界电信和信息社会日即将来临之际,共襄数据中心行业高质量发展。
第一件事,是Spark 3.0 开始重构shuffle部分,用以支持remote shuffle。这意味着我们终于可以为shuffle专门准备一个存储集群了,比如一个单独的HDFS之类的。这是Spark架构前进的一小步,也是业界开始朝计算和存储分离走了坚实的一步。计算和存储分离的好处我们就不多讲,而计算和存储的分离的前提是内网速度要足够快,所以也意味着内网速度已经基本达到要求了。通过这个我是想告诉大家,内网已经足够快。就像5G足够快,会带来什么,很快就会有结果。
随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择。相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多。
领取专属 10元无门槛券
手把手带您无忧上云