今天下午业务人员发现某功能无响应(该功能一天前上线),技术人员初步诊断后发现是某个DB不太正常,DB为Mysql 5.7.18。
嗯最近晚上有时在家使用 vscode 远程开发连接腾讯云的机器写点小东西,有几个晚上发现 vscode 远程很容易断开,甚至断开之后无法重连,这时候 ssh 也无法连接,但是 ping 很正常,原本还怀疑是电信宽带日常晚上常规垃圾表现。
分布式系统环境下,服务间类似依赖非常常见,一个业务调用通常依赖多个基础服务。如下图, 对于同步调用,当会员服务不可用时,订单服务请求线程被阻塞,当有大批量请求调用会员服务时, 最终可能导致整个会员服务资源耗尽,无法继续对外提供服务。并且这种不可用可能沿请求调用链向上传递,这种现象被称为雪崩效应。
本文要介绍的是一个发生在我们线上环境的真实案例,问题发生在某次大促期间,对我们的线上集群造成了比较大的影响,这篇文章简单复盘一下这个问题。
前言 话说天下大势,分久必合,合久必分!超融合到了爆发的边缘! 作者是国内研究超融合相当早的专家,有非常强的理论基础和实战经验。上几篇分析文章,对nutanix/VSAN/深信服等厂家的深入分析,引起了业界很大的反响。 以下是超融合分析系列前面几篇,已经阅读过的同学可以跳过。 超融合概述 超融合产品分析系列(1):nutanix方案 超融合方案分析系列(2):VSAN的超融合方案分析 超融合方案分析系列(3)深信服超融合方案分析 非常深入的超融合分析系列,希望大家会喜欢,另外文章最后附有作者的微信,有兴趣
大量TimeoutException,说明当前redis服务节点上已经堆积了大量的连接查询,超出redis服务能力,再次尝试连接的客户端,redis 服务节点直接拒绝,抛出错误。
Fail at Scale 是 Facebook 2015 年在 acm queue 上发表的一篇文章。主要写了常见的线上故障和应对方法,内容还是比较实在的。
究竟哪些东西可以影响到我们服务器的性能呢? 无非就是:CPU、磁盘IO、内存等等一系列硬件 在研究性能时候,先带大家来了解三个术语 QPS: 每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准,简言之就是数据库每秒能查多少数据 TPS: 服务器每秒处理的事务数。TPS包括一条消息入和一条消息出,加上一次用户数据库访问。(业务TPS = CAPS × 每个呼叫平均TPS) 并发量: 同一时间处理请求的数量,注意不要和同时连接数搞混,连接数要比并发量多的多的多 如果存
为了让读者能与小编在后续的问题分析中有更好的共鸣,小编先与各位读者朋友对齐一下我们 Kafka 集群的部署架构及服务接入 Kafka 集群的流程。
导语:随着后疫情时代到来,线上应用开始深刻影响到人们生活与工作的方方面面,这也给支撑各种线上应用的数据中心带来了效率与成本的巨大挑战。在数据中心效率与成本方面,风靡全球的游戏《我的世界》托管商堪称模范,实现了单台服务器实例数从182增加到至少500个、游戏实例密度提升175%、CPU利用率从40%攀升到85%,这其中究竟有何魔力?让我们一探究竟!
服务器作为数据和网站的载体,其安全性和稳定性非常重要,但如今很多企业的服务器经常出现死机(即宕机)的状况,给企业业务带来很大影响。
之前文章《Linux服务器性能评估与优化(一)》太长,阅读不方便,因此拆分成系列博文:
之前有读者在字节面试的时候,被问到:TCP 和 UDP 可以同时监听相同的端口吗?
服务器上部署了Java服务,出现了OutOfMemoryError,问题应该如何定位? 解决思路 Java服务OOM,最常见的原因为: 有可能是内存分配确实过小,而正常业务使用了大量内存 某一个对象
相信大家都有感触,线上服务内存OOM的问题,是最难定位的问题,不过归根结底,最常见的原因: 本身资源不够 申请的太多 资源耗尽 58到家架构部,运维部,58速运技术部联合进行了一次线上服务内存OOM问题排查实战演练,将内存OOM问题定位三板斧分享出来,希望对大家也有帮助。 题目 某服务器上部署了Java服务一枚,出现了OutOfMemoryError,请问有可能是什么原因,问题应该如何定位? 不妨设服务进程PID为10765(没错,就是CPU占用高的那个倒霉的进程《线上服务CPU100%问题快速定位实战》)
你好,我是 somenzz,可以叫我征哥,今天看到了一个很好的面试问题,分享给你。
我们使用 wordpress 搭建网站后,随着网站发展访问量越来越大,经常会遇到前台后台打开速度不尽如人意、甚至内存耗尽的情况。抛开网速不说,从 wordpress 本身下手还是有办法提高性能的。今天魏艾斯博客介绍一个关于提升 WordPress 性能的小技巧,修改 WP MEMORY LIMIT 和 php.ini 内存数值, 进而优化 WordPress 性能。 影响 WordPress 运行速度的因素有很多,本文所讲的是其中一个因素。为了提升 wordpress 内存性能、加速网站,你还可以参考以下办
不过考虑到如何安全使用 Redis 也是这个比较基础的东西,新手如果配置不当,很容易造成线上的 Redis 服务处于「裸跑」状态,被黑客恶意攻击,导致 Redis 服务不可用,进而导致依赖 Redis 服务的 Session、缓存、队列、分布式锁等业务功能瘫痪,造成严重的生产事故,所以在深入探索 Redis 底层原理和集群构建之前,学院君准备给大家插播下 Redis 的安全使用。
随着网络的发展,用户对网站的安全防御DDoS愈加重视,作为当前一种最常见的网络攻击方式,DDoS攻击导致很多企业用户的网站业务或主机/服务器深受其害。DDoS攻击也因其“破坏性较大、难以防范,且无法彻底根除”等特点,成为云计算服务、IDC、游戏、电商等多个行业的“公敌”。
假期的最后一天,二毛坐高铁回到了这座一不努力就要每天吃猪脚饭的城市,转乘地铁回到了租房里。
生产环境有二台阿里云服务器,均为同一时期购买的,CPU、内存、硬盘等配置相同。具体配置如下:
默认超时时间为 60 秒。根据 Shopify 的经验,5 秒的读取超时时间和 1 秒的写入超时时间是不错的设置。
glusterfs、ceph、minio在开源界,属于比较流行应用较广的三个分布式存储系统。现在重点介绍下,这三个分布式系统的架构以及和raid的类比,让大家把存储明明白白的搞透彻。
绝大部分 DoS 攻击,一般来说都是目标系统收到大量服务请求,最终导致拒绝服务状态。实际上,随着技术的发展,如果要让现在的系统“拒绝服务”,是需要海量请求配合的——也就是所谓的泛洪攻击才能做到的,这就需要用到分布式拒绝服务,也就是 DDoS 攻击了。但在前不久结束的 DEF CON 大会上,安全研究人员在 Windows SMB 服务中发现一个漏洞,利用该漏洞,即便是一台普通性能的计算机,也能对拥有海量运算资源的服务器发动 DoS 攻击。 近日,RiskSense的安全研究人员找到了一个20年之久的Wind
作者:reneeyang(杨韧) 腾讯光子技术服务工程师 导语|秦时明月世界手游已经上线一段时间了,运营稳定,整个上线过程达到了预期的效果。现复盘整理如下,如果能通过些许经验,让其他业务躺平且少走弯路,就是我本文的初衷。 为什么普遍现网环境限制coredump? Coredump也叫核心转储,是应用程序在运行过程中由于各种异常或者bug导致退出,在满足一定条件下产生了一个core文件,这个core文件包含了程序运行时内存、寄存器状态、堆栈指针等信息。Core文件就像一个案发现场,提供了第一手的现
推荐使用gotop[1]插件,可以从终端直观的、实施的查看CPU、内存、磁盘等指标。
不论你是否关注,Java Web应用都或多或少的使用了线程池来处理请求。线程池的实现细节可能会被忽视,但是有关于线程池的使用和调优迟早是需要了解的。本文主要介绍Java线程池的使用和如何正确的配置线程池。
互联网基础设施公司Cloudflare近日披露,它已化解了迄今为止所记录的最大规模的容量耗尽分布式拒绝服务(DDoS)攻击。 这次攻击发生在上个月,目标是Cloudflare在金融行业的其中一个客户。 Cloudflare表示,攻击者使用了由20000多个受感染设备组成的僵尸网络向该客户的网络发送大量的HTTP 请求,以耗尽服务器资源,从而使其崩溃。 这种攻击名为容量耗尽DDoS,不同于典型的带宽DDoS攻击。在典型的带宽DDoS攻击中,攻击者试图耗尽并阻塞受害者的互联网连接带宽。而在容量耗尽DDoS攻击中
作为当前一种最常见的网络攻击方式,DDoS攻击导致很多企业用户的网站业务或主机/服务器深受其害。DDoS攻击也因其“破坏性较大、难以防范,且无法彻底根除”等特点,成为云计算服务、IDC、游戏、电商等多个行业的“公敌”。
图2-1可以说是标准的生产库环境,处处体现了冗余,有效防止了单点故障。这就是HA(高可用)
从23:35到次日早上07:30, 偶尔收到10.205.1.26/10.205.1.27服务器报警: 告警06:57:30 on 10.205.0.1.26 项目: Zabbix agent on 10.205.1.26 is unreachable for 5 minutes 详情:Agent ping:Down (1)
作为一台服务器来说,内存并不是无限的,所以总会存在内存耗尽的情况,那么当 Redis 服务器的内存耗尽后,如果继续执行请求命令,Redis 会如何处理呢?
什么是CC攻击?CC攻击的前身名为Fatboy攻击,是利用不断对网站发送连接请求致使形成拒绝服务的目的。攻击者通过代理服务器或者肉鸡向向受害主机不停地发大量数据包,造成对方服务器资源耗尽,一直到宕机崩溃。
SockStress攻击正好与Syn-Flood攻击原理相悖,它正是利用建立TCP/IP三次握手连接来实现拒绝服务攻击,而且与Syn-Flood不同它并非通过耗尽服务器的TCP连接数来让正常用户的正常请求无法响应,而是直接耗尽服务端的内存、CPU等资源让受害者宕机,属于非对称的资源消耗攻击,这种攻击方式的危害性极大,而且一旦遭受分布式攻击是几乎不能被抵御的。
因为系统数据量持续性增大,腾讯云的MySQL已经达到瓶颈,无法进行升级操作,如果自己搭建一个分库分表系统,速度和可靠性上面都会很差,综合各方面考虑,最后决定采用阿里云的PolarDB-X分布式数据库。
Redis缓存作为提高系统性能最好的方式相信大家对其一定不陌生,各位作为秃头老码农不仅需要掌握Redis的基础用法还得了解Redis的相关原理,比如Redis过期策略和内存淘汰机制。
NGINX有一个master进程(它执行特权操作,如读取配置和绑定到端口)和许多worker and helper进程。
昨晚通宵生产压测,终于算是将生产服务宕机的原因定位到了,心累。这篇文章,算作一个复盘和记录吧。。。先来看看Redis的缓存淘汰算法思维导图:
最近发现博客的内存老是隔三差五地被“吃掉”了,登录到后台后偶尔会出牛顿的情况,一开始怀疑是Swap不够导致的,于是给VPS主机增加了几个G的Swap,观察了一段时间后发现再大的Swap也被慢慢地“吃掉”了!
DDoS:Distributed Denial of Service,即分布式拒绝服务攻击。借助于客户/服务器技术,将多个计算机联合起来作为攻击平台,对一个或多个目标发动DDoS攻击,从而成倍地提高拒绝服务攻击的威力。通常,攻击者使用一个偷窃帐号将DDoS主控程序安装在一个计算机上,在一个设定的时间主控程序将与大量代理程序通讯,代理程序已经被安装在网络上的许多计算机上。代理程序收到指令时就发动攻击。利用客户/服务器技术,主控程序能在几秒钟内激活成百上千次代理程序的运行。
Redis提供了许多提高和维护高效内存数据库使用的工具。在无需额外配置应用层的前提下,Redis独特的数据类型、指令和命令调优就可以满足应用的需求,但是错误的配置,更确切的说那些机外设备可能导致操作麻烦和性能问题。虽然导致了一些令人头疼的问题,但是解决方案是存在的,而且解决方案可能比我们预期的简单。 本系列文章介绍了使用Redis时遇到的一些令人头疼的问题,以及该解决这些问题。这些内容基于我们在运行上千个Redis数据库实例时的真实经历。 复制缓冲区限制 复制缓冲区主从服务器同步数据时保存数据的内存区域。在
如今,DDoS攻击作为当前一种最常见的网络攻击方式,许多人都意识到了防护DDoS的重要性,很多企业用户的网站业务或主机服务器深受其害,DDoS攻击也因其“破坏性较大、难以防范,且无法彻底根除”等特点,成为了云计算服务、IDC、游戏、电商等多个行业的“公敌”。
Vmstat是一个很全面的性能分析工具,可以观察到系统的进程状态、内存使用、虚拟内存使用、磁盘的IO、中断、上下文切换、CPU使用等。系统性能分析工具中,使用最多的是这个,除了sysstat工具包外,这个工具能查看的系统资源最多。
没想到通过 SSH 命令想进入到服务器的时候,一直提示超时,发现我竟然进不去自己的服务器了??
我们在使用服务器的时候基本不会在C盘安装软件,那么用久了发现C盘满了,提示空间不足?那么这是怎么回事,为什么空间会占用这么快呢?今天飞飞和大家分享下服务器c盘空间不足的清理方法。
当网站遇到DDoS攻击的时候,很多人会问自己为何会成为DDoS攻击目标,服务器被DDoS攻击如何判断,对企业造成哪些危害?对于这些DDoS攻击问题,超级科技为大家一一解答。
领取专属 10元无门槛券
手把手带您无忧上云