据IDC发布的《数据时代2025》报告显示,全球每年产生的数据将从2018年的33ZB增长到2025年的175ZB,平均每天约产生491EB数据。随着数据量的不断增长,数据存储成本成为企业IT预算的重要组成部分。例如1PB数据存储一年,全部放在高性能存储介质和全部放在低成本存储介质两者成本差距在一个量级以上。由于关键业务需高性能访问,因此不能简单的把所有数据存放在低速设备,企业需根据数据的访问频度,使用不同种类的存储介质获得最小化成本和最大化效率。因此,把数据存储在不同层级,并能够自动在层级间迁移数据的分层存储技术成为企业海量数据存储的首选。
得物上一代日志平台的存储主要依赖于 ES。随着公司业务的高速发展,日志场景逐步产生了一些新需求,主要表现在:应用数量逐步增多,研发需要打印更多的日志定位业务问题,安全合规需要保留更长时间的日志。随着 Clickhouse 的应用广泛,我们了解到行业部分知名公司已经将日志平台逐步由 ES 迁移至Clickhouse,以此来获取更好的写入性能与高压缩比。因此我们与日志平台研发团队开始进行日志平台新存储的选型评估,本文会介绍我们如何通过 Clickhouse 的冷热分离存储替代 ES 的实施方案。
Serverless架构是近年来迅速兴起的一个技术概念。基于这种架构能构建出多种应用场景,适用于各行各业。只要是对轻计算、高弹性、无状态等场景有诉求,您都可以通过本文来熟悉一些基础概念,并从相关场景中获得启发。
Artifactory 是 JFrog 的一个产品,用作二进制存储库管理器。二进制存储库可以将所有这些二进制统一托管,从而使团队的管理更加高效和简单。
Lustre 如何工作的 Lustre 架构说明 lustre是一个基于对象的分布式文件系统。它核心有三个组件元数据服务(mds)、对象存储服务(oss)和客户端(client).lustre采用块设备来存储文件和元数据,每个块设备由单一独立的lustre服务来管理。比如lustre的元数据服务,元数据需要存储在块设备上,元数据进程需要把元数据写入到这个块设备上。lustre的总容量是所有的ost(oss管理的块设备)之和。lustre客户端是通过标准的Posix/IO的系统调用。 MDS(meta
在构建 Web 站点的过程中,任何一个细节都有可能影响网站的访问速度。如果开发人员不了解前端性能相关知识,很多不利网站访问速度的因素会在线上形成累加,从而严重影响网站的性能,导致网站访问速度变慢、用户体验低下,最终导致用户流失。页面性能对网页而言,可谓举足轻重。因此,对页面的性能进行检测分析,是开发者不可忽视的课题。那么我们如何对页面进行监控分析及性能评判?对性能评判的规则又是什么样的呢?
本项目启动需要依赖MySql、Elasticsearch、Redis、MongoDb、RabbitMq等服务,安装依赖服务请参考mall在Windows环境下的部署,数据库中需要导入mall_tiny.sql脚本。
大家好,我是鱼皮。今天分享一个超好用的springboot文件上传工具。 文件上传是再平常不过的一个功能,做后端开发的基本都会接触到,虽然不难可着实有点繁琐。数据流的开闭、读取还容易出错,尤其是在对接一些OSS对象存储平台,一个平台一堆SDK代码看起来乱糟糟的。 下边给我大家推荐一个工具Spring File Storage,上传文件只要些许配置一行代码搞定,开发效率杠杠的,一起看看是不是有这么流批! “官网:https://spring-file-storage.xuyanwu.cn Spring Fi
又是做好人好事的一天,有个小可爱私下问我有没有好用的springboot文件上传工具,这不巧了嘛,正好我私藏了一个好东西,顺便给小伙伴们也分享一下,demo地址放在文末了。
Grafana是一款能够提供查询、告警和可视化指标、日志、链路跟踪的软件,并且提供了TSDB时序数据库用于存储数据。 一共有3个版本,Grafana OSS(开源版),Grafana Enterprise(企业版),Grafana Cloud(云版)。 开源版为免费版本,升级企业版要重新安装;企业版包含开源版内容,并且可以升级到完整的企业版功能,是官方推荐安装的版本;云版提供免费的10K系列指标、50G大小日志、50G大小链路追踪功能。
oss-server是针对项目开发时提供的小型对象存储系统,开发者在针对文件上传时业务剥离,同时方便文件迁移,为满足单个项目,多个系统的情况下,提供统一的oss服务
最近在使用 Terraform Cloud 来置备 OCI 的 Always Free Tier, 发现它非常好用,相比 Terraform OSS, 用起来省心多了。
随着数据量的爆发式增长,数字化转型称为了整个IT行业的热点,数据也开始需要更深度的价值挖掘,因此需要确保数据中保留的原始信息不丢失,从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐无法适应这样的需求情况,于是业界也开始进行不断的产生的计算引擎,以便应对数据时代的到来。在此背景下,数据湖的概念被越来越多的人提起,希望能有一套系统在保留数据的原始信息情况下,又能够快速对接多种不同的计算平台,从而在数据时代占比的先机。
最近遇到一个日志备份 io 过高的问题,业务日志每十分钟备份一次,本来是用 Python 写一个根据规则扫描备份日志问题不大,但是随着业务越来越多,单机上的日志文件越来越大,文件数量也越来越多,导致每每备份的瞬间 io 阻塞严重, CPU 和 load 异常的高,好在备份速度很快,对业务影响不是很大,这个问题会随着业务增长,越来越明显,这段时间抽空对备份方式做了优化,效果十分显著,整理篇文章记录一下。
下载地址:https://dl.minio.io/server/minio/release/linux-arm64/minio
使用velero可以对集群进行备份和恢复,降低集群DR造成的影响。velero的基本原理就是将集群的数据备份到对象存储中,在恢复的时候将数据从对象存储中拉取下来。可以从官方文档查看可接收的对象存储,本地存储可以使用Minio。下面演示使用velero将openstack上的openshift集群备份恢复到阿里云的openshift上。
在当今数字化时代,数据量不断增长,对于存储系统提出了更高的要求。传统的存储方式已经难以满足大规模数据的存储和管理需求,因此,对象存储(Object Storage)应运而生。对象存储是一种面向海量数据的存储架构,以其高扩展性、弹性存储、高性能和简单管理等特点,成为了云计算、大数据分析和企业数据管理中的重要组成部分。
T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术,包括Apache Hudi和Alluxio。在本文中,您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外,数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段(包括提取和分析)构建了数据湖。
最近我听到了很多关于如何签署开源软件发布的问题。一旦你解决了那些不可能解决的工具/加密问题,你很快就会意识到你仅仅触及了复杂性的表面。这些问题并不都是 OSS 特有的,但是社区驱动的项目确实面临一些超越技术和哲学领域的独特挑战。
ApiBoot为接口服务而生,基于SpringBoot完成扩展、自动化配置,通过封装一系列Starter来让调用者快速集成组件,降低学习、使用门槛,提高开发效率。
上一篇文章《使用压缩文件优化io (一)》中记录了日志备份 io 优化方案,使用文件流数据压缩方案优化 io 性能,效果十分显著。这篇文章记录数据分析前置清洗、格式化数据的 io 优化方案,我们有一台专用的日志前置处理服务器,所有业务日志通过这台机器从 OSS 拉取回来清洗、格式化,最后进入到数据仓储中便于后续的分析。
就需要服务器引入nginx,Nginx官方宣传5W并发量,利用其反向代理,可以加入很多台Tomcat处理。但是有个问题,多机器Tomcat的Session之间共享问题。这个时候就需要引入Redis作为存储各个Tomcat之间的Session共享问题,同时 redis 也可作为下面的优化使用。一些经常查询的热点数据,可以存入Redis,加快相应速度,也就不用直接取数据库查询了。
功能上和ELK类似,但又比ELK要简单,依靠着更加简洁,高效,部署使用简单的优势很快受到许多人的青睐
本文介绍的Nexus不是谷歌的一个手机品牌哈,而是一个非常强大的仓库管理平台。支持常见的Docker、Maven、npm、PyPI等仓库的管理。
使用ES来查询业务日志在开发中是非常常见的一种方式,典型的解决方案是ELK,已经非常成熟了。Flink是一个比较年轻的开源项目,已经发展了好几年,但是周边的生态还是不是很完善,比如日志收集其实不太友好,比如session模式想要按job收集日志就做不到,另外比较流行的是yarn和k8s模式,k8s理论上应该是比较容易收日志的,越来越多的公司大量java应用都跑在k8s里。日志收集这块也限制只能用商业产品,不好用。我们希望接到es里
个人博客纯净版:https://www.fangzhipeng.com/%E6%9E%B6%E6%9E%84/2017/09/17/kong-api-gateway.html
CDN 在静态资源的加速场景中是将静态资源缓存在距离客户端较近的CDN 节点上,然后客户端访问该资源即可通过较短的链路直接从缓存中获取资源,而避免再通过较长的链路回源获取静态资源。因此 CDN的缓存命中率的高低直接影响客户体验,而保证较高的命中率也成为了站长的核心命题。在本文中我们就一起探讨 CDN 缓存命中率的概念、影响因素以及优化策略。
Dapr 团队最近在博客上发布了 Dapr 完成模糊测试审核[1]的文章,该审计是 CNCF 通过模糊测试改善[2]开源云原生项目安全状况的计划的一部分。该审计由 Ada Logics[3] 于 2023 年 5 月和 6 月进行的,Ada Logics 团队为了改善 Daprs 安全状况,并且由于创建了大量模糊器,发现的问题数量很少,一共开发了 39个 fuzzer,发现了3个问题,三个问题的数量非常少,这证明了 Dapr 项目编写良好且维护良好的代码库。这也表明了代码库的成熟水平。 审计中的所有模糊器都是开源的,最初被添加到 CNCF 的模糊测试存储库[4]中,团队已经开始将模糊器迁移到Dapr 仓库中[5]来完善Dapr的测试。
ELK作为日志UI产品,自诞生就备受关注,时至今日也热度不减,在Github上有着高达 54.7k的关注。
大家好,我们使用k8s已经有一段时间了,早些时间这篇文章的思想和技巧在使用的过程中也逐步被深度验证,主要是经验和坑,包括团队协作、技术落地、公有云的坑,自动化工具、CICD先后等。我觉得有必要更新2.0版本。
从 /data/minio/oss/.minio.sys/config/config.json 找到登录秘钥。如下图所示:
Logtail的安装配置流程相对比较简单,如果日志服务和ECS在同一账号下,则只需5个步骤即可实现采集。
JuiceFS 是一个创新性的软件产品,很多初次尝试的小伙伴对产品和用法感到很多疑惑,所以为了帮助大家快速理解并上手 JuiceFS,我们整理了24个关于 JuiceFS 经典的问题答案,相信经过这 24 问,大家对 JuiceFS 会有更清晰的认识,使用上也会更加得心应手。
给算法同学重构了一版代码。原则是边重构边测试,即使看起来有多么简单逻辑,反复测试是必不可少的。
AWS的S3, 阿里云的OSS, 腾讯云的COS, 都是常见的对象存储服务。对象存储服务面向非结构化数据,支持通过HTTP/HTTPS协议访问,支持存入文本、图片、视频等多种类型的数据。
注意:因为nginx和网关同时使用了80端口,因此先停止nginx,然后再启动网关
作为一名合格的MySQL DBA,备份是重中之重。为了保证备份集的安全可靠,除了集中存储以外还有其他更好的方案吗? 当然是有的,可以存储在OSS或者分布式存储上。那么问题来了,如何能够实现自动备份,不需要人工干预即可上传到OSS上,节约大量的时间去悠哉悠哉地喝喝茶、看看报呢?且听下文
根据格像科技公司的业务需求,我们需要搭建一个近似最近邻(Approximate Nearest Neighbor,即 ANN)搜索引擎,以便将在线向量相似搜索功能应用到公司其他业务中。我们搭建的 ANN 搜索引擎需要满足以下几个要求:
之前在和小伙伴在做技术分享的时候,分享了他们做的某医院数据上云方案。该医院因为数据延迟问题,病人无法及时看到检验报告。
良好的监控环境为腾讯云容器服务高可靠性、高可用性和高性能提供重要保证。您可以方便为不同资源收集不同维度的监控数据,能方便掌握资源的使用状况,轻松定位故障。 腾讯云容器服务提供集群、节点、工作负载、Pod、Container 5个层面的监控数据收集和展示功能。 收集监控数据有助于您建立容器集群性能的正常标准。通过在不同时间、不同负载条件下测量容集群的性能并收集历史监控数据,您可以较为清楚的了解容器集群和服务运行时的正常性能,并能快速根据当前监控数据判断服务运行时是否处于异常状态,及时找出解决问题的方法。例如,您可以监控服务的 CPU 利用率、内存使用率和磁盘 I/O
Cloudreve支持多家云存储的云盘系统,安装简单,功能强大,这篇文章就利用宝塔来安装Cloudreve(v3)以及配置OneDrive作为存储端。 官方给出了3种搭建方式,通过Composer安装、通过Docker安装、通过官网安装包安装!貌似是Docker还不完善,不建议用于生产环境。所以这篇文章通过安装包来安装,这也是一种很干净的安装方式。
COS Migration 是一个集成了 COS 数据迁移功能的一体化工具。通过简单的配置操作,用户可以将源地址数据快速迁移至 COS 中,它具有以下特点:
例如设置默认首页为index.html,默认404页为error.html,Bucket为oss-sample,Endpoint为oss-cn-hangzhou.aliyuncs.com,那么:
在实际生产中,日志是非常重要的调试工具,日志内容至少需要包括时间戳、日志级别、日志内容
数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。
日志分析系统可以实时收集、分析、监控日志并报警,当然也可以非实时的分析日志。splunk是功能强大且用起来最省心的,但是要收费,免费版有每天500M的限制,超过500M的日志就没法处理了。ELK系统是最常见的,缺点是配置麻烦一些,比较重量级。graylog是开源免费的,配置上要比ELK系统简单。综上,本文尝试容器方式搭建一套graylog系统,不做实时收集日志和报警的配置,只完成非实时被动接收网站日志,分析日志各项指标的功能。 docker官方镜像国内速度我觉得慢,改成国内镜像。新建文件daemon.json如下
既支持各种 「S3」 协议的对象存储如 阿里云OSS、七牛云OSS、MinIO 等,同时也支持阿里的 FastDFS。
在现网环境,一些使用Redis集群的业务随着业务量的上涨,往往需要进行节点扩容操作。
ossutil支持在Windows、Linux、macOS等系统中运行,您可以根据实际环境下载和安装合适的版本。
领取专属 10元无门槛券
手把手带您无忧上云