在上期,我们提到,如果我们想把对象存储用在生产环境,仅仅在单AZ内部实现三副本只能保证数据99.9999999%的持久性。如果我们还期望业务的可用性达到99.999%以上,还需要实现对象存储的跨AZ部署,也就是所谓的“同城双活”。
近年来,云计算已成为主流,企业从自身利益出发,或是不愿意被单一云服务商锁定,或是业务和数据冗余,或是出于成本优化考虑,会尝试将部分或者全部业务从线下机房迁移到云或者从一个云平台迁移到另一个云平台,业务迁移涉及到数据的迁移。正好 JuiceFS 已经对接了各种对象存储的 API ,也实现了数据同步的逻辑,让我们来了解下 JuiceFS 的 sync 命令。
在当今数字化时代,数据量不断增长,对于存储系统提出了更高的要求。传统的存储方式已经难以满足大规模数据的存储和管理需求,因此,对象存储(Object Storage)应运而生。对象存储是一种面向海量数据的存储架构,以其高扩展性、弹性存储、高性能和简单管理等特点,成为了云计算、大数据分析和企业数据管理中的重要组成部分。
随着数据量的爆发式增长,数字化转型称为了整个IT行业的热点,数据也开始需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐无法适应这样的需求情况,于是业界也开始进行不断的产生的计算引擎,以便应对数据时代的到来。在此背景下,数据湖的概念被越来越多的人提起,希望能有一套系统在保留数据的原始信息情况下,又能够快速对接多种不同的计算平台,从而在数据时代占比的先机。
在上一期,我们提到,我们如果期望让对象存储具备跨AZ的高可用功能,就需要让对象存储把副本存储到两个不同的AZ。但是,对于3副本的情况,总会有一个AZ里面只有单副本。这样,当另一个AZ整体不可用时,用户的数据将处于十分危险的状态。
HDFS 是 Hadoop 生态的默认存储系统,很多数据分析和管理工具都是基于它的 API 设计和实现的。但 HDFS 是为传统机房设计的,在云上维护 HDFS 一点也不轻松,需要投入不少人力进行监控、调优、扩容、故障恢复等一系列事情,而且还费用高昂,成本可能是对象存储是十倍以上。
AutoMQ[1] 是新一代基于共享存储架构实现的云原生 Kafka。得益于其存算分离的共享存储架构,通过和阿里云合作,深度使用阿里云可靠、先进的云服务如对象存储 OSS、块存储 ESSD、弹性伸缩 ESS 以及抢占式实例实现了相比 Apache Kafka 10 倍的成本优势并且提供了自动弹性的能力。
用户希望将历史数据迁移到OSS上的用户目标存储桶。需要迁移的源数据可能来自某个OSS桶,也可能来自本地或第三方云存储(例如腾讯云COS)。等等,HTTP等。
在数字化时代,数据已经成为各行各业的核心资产,需要以一种高效、可扩展和高可靠性的方式进行存储和管理。对象存储是一种以对象为中心的存储方式,将数据存储为对象而不是文件,它具有高度可靠性、高扩展性和高性能等优点。
在了解什么是分布式存储之前,我们先来简单了解一下存储几十年来的大概历程。
作者简介 妙成,携程云原生研发工程师,主要从事Elasticsearch、JuiceFS的研发运维,关注分布式数据库、NoSQL。 小峰, 携程云原生研发工程师,主要专注于数据库容器化领域,对分布式存储有浓厚兴趣。 一、摘要 携程的冷数据规模在 10PB+,包括备份数据、图片语音训练数据和日志数据等,存储方案主要是本地磁盘和GlusterFS。在实际使用中这些方案遇到了不少痛点: GlusterFS 在单目录下文件众多时,ls命令速度很慢; 受疫情期间机器采购周期的制约,无法灵活地根据实际需求弹性扩缩容
上一篇 Thanos 架构详解 我们深入理解了 thanos 的架构设计与实现原理,现在我们来聊聊实战,分享一下如何部署和使用 Thanos。
得物上一代日志平台的存储主要依赖于 ES。随着公司业务的高速发展,日志场景逐步产生了一些新需求,主要表现在:应用数量逐步增多,研发需要打印更多的日志定位业务问题,安全合规需要保留更长时间的日志。随着 Clickhouse 的应用广泛,我们了解到行业部分知名公司已经将日志平台逐步由 ES 迁移至Clickhouse,以此来获取更好的写入性能与高压缩比。因此我们与日志平台研发团队开始进行日志平台新存储的选型评估,本文会介绍我们如何通过 Clickhouse 的冷热分离存储替代 ES 的实施方案。
过去的相当长的一段时间里,商用对象存储占据了市场上的大量的份额。国外的Amazon S3,国内的阿里云OSS都成为了大多数公司的选择。但是构建一个企业级的数据湖(包括结构化和非结构化数据)已经成为了越来越多公司的目标。那么Hadoop还能满足我们的要求吗?还是我们需要更多的选择?
本文主要讲解企业级OSS对象存储服务Spring Boot Starter制作,开箱即用,为项目进行赋能。基于AmazonS3协议,适配市面上的对象存储服务如:阿里云OSS、腾讯COS、七牛云OSS、MInio等等 什么是OSS? OSS(Object Storage Service),对象存储服务,对象存储服务是一种使用HTTP API存储和检索对象的工具。就是将系统所要用的文件上传到云硬盘上,该云硬盘提供了文件下载、上传、预览等一系列服务,具备版本,权限控制能力,具备数据生命周期管理能力这样的服务以及技术可以统称为OSS OSS在项目中的使用 OSS对象存储在目前大部分项目中必不可少的存在,如下图所示。
文件服务器是一个应用必要的组件之一。最早我搞过FTP,然后又用过FastDFS,接私活的时候我用MongoDB也凑合凑合。现如今时代不同了,开始流行起了OSS。
在早前这篇文章中 《ClickHouse已支撑S3和HDFS存储的零拷贝复制》,我介绍过 ClickHouse 为了更好的适应当前云原生的发展,利用多层存储的机制,打通了 S3 这样的对象存储。
存储是大数据的基石,存储系统的元数据又是它的核心大脑,元数据的性能对整个大数据平台的性能和扩展能力非常关键。本文选取了大数据平台中 3 个典型的存储方案来压测元数据的性能,来个大比拼。
Alluxio 是世界上第一个面向基于云的数据分析和人工智能的开源的 数据编排技术 。 它为数据驱动型应用和存储系统构建了桥梁, 将数据从存储层移动到距离数据驱动型应用更近的位置从而能够更容易被访问。 这还使得应用程序能够通过一个公共接口连接到许多存储系统。 Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。
在公网对对象存储进行读取,有公有读和私有读两个方式,但是由于CDN无法进行验证,导致如果非同一厂商支持内网验证的CDN环境下,必须使用公有读才可以正常从外网访问。 最近腾讯云CDN的源站多了一个新选项第三方对象存储,控制台对此的注释是AWS S3和阿里云OSS。 言下之意,就是腾讯云CDN支持私有访问第三方存储桶了。
事故的发生是量的积累的结果,任何事情都没有表面看起来那么简单,在软件运行的过程中,随着用户量的增加,不考虑高可用,迟早有一天会发生故障,不得事先考虑高可用设计,而高可用是一门庞大的学问。
该文是 [Delta Lake 数据源](https://docs.byzer.org/#/byzer-lang/zh-cn/datasource/dw/delta_lake) 一个补充。
使用velero可以对集群进行备份和恢复,降低集群DR造成的影响。velero的基本原理就是将集群的数据备份到对象存储中,在恢复的时候将数据从对象存储中拉取下来。可以从官方文档查看可接收的对象存储,本地存储可以使用Minio。下面演示使用velero将openstack上的openshift集群备份恢复到阿里云的openshift上。
Kubernetes(简称K8S) 是Google开源的分布式的容器管理平台,方便我们在服务器集群中管理我们容器化应用。
关于thanos的介绍可以参考这篇官方博客的翻译文档,本文不作部署操作介绍。下图是thanos的官方架构图,主要有5个组件:
作者 | 苏锐 策划 | Tina Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变;随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造。 今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构方案,他们的利弊各有哪些,希望可以给正在存算分离架构改造的企业一些参考和启发。 Hadoop 存算耦合架构回顾 2006 年 Hadoop 刚发布,这是一个 all-i
我们已经多次关注亚马逊S3、阿里云oss这类对象存储的安全性问题,比如Bucket的权限管理,上传文件的xss问题、AK\SK的保护。如果说对象存储Object Storage Service像云盘,而本文所说的块存储Block Storage是类似于机械硬盘、固态硬盘的“云硬盘”。亚马逊方面在Elastic Compute Cloud (EC2)的实例的持久块存储称为Elastic Block Storage。阿里云EBS是指为ECS云服务器提供的块设备,高性能、低时延,满足随机读写,可以像使用物理硬盘一样格式化、创建文件系统,可用于云硬盘、快照、模板。在底层所承载的分布式存储系统是盘古系统,技术实现类似于HDFS,分为Master、Client、Chunk Server,基本的产品矩阵如下:
我们介绍过很多关于EasyDSS的定制项目,其中大部分都是通过Go语言完成的,例如通过Go语言 gorm 框架钩子函数精简代码,或者通过Go语言生成归档文件功能,现下基于部分用户的使用需求,我们还需要做出小幅调整,目前的调整是需要将录像存储在云的OSS中。
李阳良,一面数据大数据部门负责人,九年互联网工作经验,对后台开发、大数据技术接触比较多。
JuiceFS 是一个创新性的软件产品,很多初次尝试的小伙伴对产品和用法感到很多疑惑,所以为了帮助大家快速理解并上手 JuiceFS,我们整理了24个关于 JuiceFS 经典的问题答案,相信经过这 24 问,大家对 JuiceFS 会有更清晰的认识,使用上也会更加得心应手。
对于数字和文本类型的数据,比方说名字和电话号码相关的信息。我们需要有个地方存起来。
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储起来,这些数据的特点主要有如下几点:
点击上方“腾讯云TStack”关注我们 获取最in云端资讯和海量技术干货 本文作者 / 机智的小熊 爱思考的程序员 专注于架构、开发、运维等领域的深入研究 笑谈架构设计 事故的发生是量的积累的结果,任何事情都没有表面看起来那么简单,在软件运行的过程中,随着用户量的增加,不考虑高可用,迟早有一天会发生故障,不得事先考虑高可用设计,而高可用是一门庞大的学问 你想知道我在设计一个高可用系统会考虑哪些内容吗?在架构设计的过程中 考虑方案选型会带来哪些坑,最差的情况下需要考虑故障发生的紧急解决方案 需
前面介绍了 Prometheus AlertManager、Alertmanager 配置实现钉钉告警、Pushgateway、基于K8S服务发现、监控常见服务、配置 Grafana 展示与报警、高可用集群方案相关的知识点,今天我将详细的为大家介绍Prometheus 高可用架构 Thanos相关知识,希望大家能够从中收获多多!如有帮助,请点在看、转发朋友圈支持一波!!!
Lustre 如何工作的 Lustre 架构说明 lustre是一个基于对象的分布式文件系统。它核心有三个组件元数据服务(mds)、对象存储服务(oss)和客户端(client).lustre采用块设备来存储文件和元数据,每个块设备由单一独立的lustre服务来管理。比如lustre的元数据服务,元数据需要存储在块设备上,元数据进程需要把元数据写入到这个块设备上。lustre的总容量是所有的ost(oss管理的块设备)之和。lustre客户端是通过标准的Posix/IO的系统调用。 MDS(meta
如今短视频发展迅猛,数据的增长速度比以往任何时候都快,其中大部分数据是非结构化的:如图片、视频、音频等等。
composer 作为 PHP 的包管理器,有很多优秀的扩展包供开发者使用, 本文记录在工作中使用过的优秀扩展包
在近日的一个风和日丽的下午,正在快乐的写 bug 时,突然间钉钉就被 call 爆了,原来是 k8s 测试集群的一个 namespace 突然不见了。这个 namespace 里面有 60 多个服务,瞬间全部没有了……虽然得益于我们的 CI/CD 系统,这些服务很快都重新部署并正常运行了,但是如果在生产环境,那后果就是不可想象的了。在排查这个问题发生的原因的同时,集群资源的灾备和恢复功能就提上日程了,这时 Velero 就出现了。
云场景攻防:公有云,私有云,混合云,虚拟化集群,云桌面等 云厂商攻防:阿里云,腾讯云,华为云,亚马云,谷歌云,微软云等 云服务攻防:对象存储,云数据库,弹性计算服务器,VPC&RAM等 云原生攻防:Docker,Kubernetes(k8s),容器逃逸,CI/CD等
根据格像科技公司的业务需求,我们需要搭建一个近似最近邻(Approximate Nearest Neighbor,即 ANN)搜索引擎,以便将在线向量相似搜索功能应用到公司其他业务中。我们搭建的 ANN 搜索引擎需要满足以下几个要求:
在分布存储式存储技术体系当中,分布式文件存储是其中的分类之一,也是大数据架构当中常常用到的。得益于Hadoop的高人气,Hadoop原生的HDFS分布式文件系统,也广泛为人所知。但是分布式文件存储系统,并非只有HDFS。今天的大数据开发分享,我们就主要来讲讲常见的分布式文件存储系统。
在本文中,我们设计了一个类似于 Amazon Simple Storage Service (S3) 的对象存储服务。S3 是 Amazon Web Services (AWS) 提供的一项服务, 它通过基于 RESTful API 的接口提供对象存储。根据亚马逊的报告,到 2021 年,有超过 100 万亿个对象存储在 S3 中。
不同于市面上其他远控工具,虽然支持各项协议的远控如dns、https、tcp、smtp层出不穷,但是一、各种对Cobra Strike 、冰蝎、恶意dns的流量检测技术逐步完善,从协议的隐蔽性和对抗性来说还远远不够;二、云环境下的渗透测试的目标环境会设置严格的安全组或者在vpc内,不能对外出入流量;三、出入的流量均会经过云安全厂商的检测,存在暴露风险。
搭建博客图床 前言 随着博客内容的增加,文章图片的数量也不断增长,如何引用存储图片就成了一个问题。对于我这样没什么访问量,只是写给自己看的博客,要求就是简单方便(当然能白嫖最好 😬),最后采用 GitHub + JsDelivr + uTools 图床插件的办法。 图床选择 先来说一下其他图床吧,简单来说,如果你有一个备案域名的话,做什么事都比较简单,国内的许多平台的对象存储都需要一个 备案域名。如果像我一样仅仅是为 Hexo + github pages 博客搞个图床,感觉再弄那些就有些麻烦了。 公益
一面数据原有的技术架构是在线下机房中使用 CDH 构建的大数据集群。自公司成立以来,每年都保持着高速增长,业务的增长带来了数据量的剧增。
保存像图片、音视频这类大文件就是对象存储。不仅有很好的大文件读写性能,还可通过水平扩展实现近乎无限容量,并兼顾服务高可用、数据高可靠。
在分布式存储技术体系当中,分布式文件存储是其中的分类之一,也是大数据架构当中常常用到的。得益于Hadoop的高人气,Hadoop原生的HDFS分布式文件系统,也广泛为人所知。但是分布式文件存储系统,并非只有HDFS。今天的大数据开发分享,我们就主要来讲讲常见的分布式文件存储系统。
最近订阅学习了《深入浅出云计算》专栏,一口气学完之后,做了一些总结笔记形成此文,特分享与你,希望对你有所帮助!本文为下半部分,主要总结了PaaS篇的核心要点。
所有框架类的 js 和 css 一律不用本地的,使用 bootcdn 上的链接,自己修改后的库可以买 oss、cdn 等加速了。
领取专属 10元无门槛券
手把手带您无忧上云