环境:两台联想R680的物理机搭建一套2节点RAC,数据库版本为ORACLE 11.2.0.4
程序员在工作中避免不了要操作 myql、redis、Linux 等。所以要安装很多工具,Navicat、Xshell、RedisDesktopManager等,今天给大家推荐一款工具,可以代替这些常规工具,统一管理监控这些资源信息。
但是看到网络输入和输入流量都不是很高,所以网站被别人攻击的概率不高,后来服务器负荷居高不下,只能保存dump文件进行分析,并一台一台服务器进行重新启动(还好大家周五下班了)
在当今的高科技环境下,生产环境服务器的性能问题可能是一个复杂且棘手的问题。当服务器变慢时,可能会对企业的运营产生重大影响,包括客户满意度下降,工作效率降低,甚至可能导致整个系统崩溃。为了解决这些问题,我们需要深入了解生产环境服务器变慢的原因,并掌握有效的诊断和处理方法。
搞深度学习的人,应该感谢“祖师爷”Geoffrey Hinton在2012年的尝试。
今天测试同学反馈API耗时很长,超过3秒的比例很高。 查看日志发现,小部分请求耗时比较大,约2秒左右,但是比例不高,与反馈比例有点不一致。后来发现是有一台服务器停止工作了(进程假死),对请求没有响应,也没有拒绝,重启后问题缓解。 因为第一次出现,没有引起重视。但是过了几个小时候,相同的问题又出现在另外一台服务器上,狗日的墨菲定律。
一台运行了好久的服务器CPU使用率达到100%,脑海中第一个想法就是中病毒了,于是开始了我的杀毒之旅。
从字面意思上来讲,电脑云游戏服务器其实就是一个硬件的概念,不一样的服务器在CPU和内存以及磁盘上都是不一样的,根据游戏需要运行的程序来决定。和一般的电脑不同的是游戏服务器就需要CPU和内存以及主板,通过标准化的包装被统一放在机架上。这样的设计一是可以省些存放的空间,另一方面也是容易管理。那么怎么选择电脑云游戏服务器地址呢?
今天,内网测试服务器A总是运行一段时间就服务器进程自行退出了,给出了“Java Result :137”这样的错误码。上网查了一下这个137,感觉没有啥有价值的东西。一开始怀疑项目中的JNI调用崩溃到底层,但是没有看到core.*这样的崩溃日志,同时也没有发现OOM的日志,也没有常见的Java 的堆异常log,关键是同样的环境,另外一台机器B,压力远比这个大,都稳定运行很长时间没有问题。下午又崩溃了两三次,一度怀疑Java是不是有什么bug,不过这个想法立马被我否认了,先从自己找原因。
传统数据中心中硬件服务器上运行linux,linux用硬件网卡收发包,硬件网卡有broadcom的有mellanox的有intel的等各式各样的,硬件网卡连接到硬件交换机上,硬件交换机有H3C的有cisco的,交换机进行包转发实现服务器之间互通。在云计算环境下,对计算资源进行了切分,服务器上运行的是一个个虚拟机,虚拟机也要有网卡实现互连互通,但虚拟机的网卡不是物理的,是虚拟的网卡,虚拟的网卡连接到虚拟的交换机上,虚拟的交换机对同一个服务器上的虚拟机之间流量进行转发,如果虚拟交换机再连接到服务器的硬件网卡,那么虚拟机就可以和服务器外面通信了。
1.删除策略 Redis 是一种内存级数据库,数据都存在内存中,但是针对于已经过期的数据,reids 不 会立刻删除只是会存储在 expires 中,当执行删除策略的时候,才会从 expires 中寻找对应的数据存储的地址,在存储空间中找到对应的数据进行删除。数据删除其实就是内存和 CPU 占用之间寻找平衡,CPU 才能去处理事情,针对过期数据,要进行删除的时候,一般有三种策略 1.1 定时删除 顾名思义,当 key 设置有过期时间,时间到了,定时器任务立即执行删除,相当于消 耗 CPU 来减少内存使用,拿时间换空间。
实测:1核1G内存撑住700多代理IP持续攻击,屹立不倒,且CPU在45%左右徘徊。
最近在维护公司线上的服务器,排查了一些问题,所以做一个总结。有一段时间,线上环境变得很卡,客户端请求很多都报超时,因为线上没有良好的apm监控,所以只能通过流量高峰期和日志去排查问题。通过排查,发现数据库的慢查询日志在比之间的暴涨了十倍,然后发现,memcache服务器(8核)负载很高,cpu一直在50%的左右,原因就是memcache服务器内存用完,导致内存的淘汰十分频繁,这样就导致很多请求落到数据库。下面说下主要的排查思路和用到的工具
先明白的事儿:当一个程序在执行的时候,一般会创建一个进程,也可以有多个进程。一个进程至少会创建一个线程,多个线程共享一个程序进程的内存。程序的运行最终是靠线程来完成操作的。线程的数量跟CPU核数有关,一个核最多能发出两个线程。线程的操作主要分为:一:给CPU进行程序命令的执行。二:IO的操作(读取或输出数据)或者请求网络数据。
公司的官方网站从春节前无缘无故就出现连接数据库异常的现象,由于以前也出现过,再加上没多久逢年过节,也就没有太在乎这个情况,仅仅试着重新启动了网站数据库。逢年过节的时候我发现了有一些不太对,网站数据库只有一打开没多久就宕掉。检查服务器里的资源,发现服务器的内存被占满,CPU达到百分之100就连远程连接都越来越巨慢至极,因此开展对该网站被攻击的问题解决。
今天早上,收到一个报警,有个服务器的http往返时延飙升,同时曝出大量404,很是折腾了一番,特记录下思考和排查经过。 1.这是单纯的时延增大,还是有什么其他情况还未掌握? 因为不知道是只有时延变大而已,还是同时有别的情况,第一反应是先看日志有没有异常。 看了一下,一片风平浪静,既是好消息也是坏消息。好消息是核心业务还在,不然一定会打日志,坏消息是日志提供不了任何信息。当然这也说明了我们的日志肯定有不到位的地方。 2.换个思路,日志风平浪静,是否只是服务器启动了什么任务,占用了大量cpu/IO等?GC呢?
很多程序员熟悉了在 Windows 环境下开发,而我们服务器一般都是 Linux 系统。当有一天你需要在 Linux 服务器上做一些配置或者故障排除的时候,你会很困惑,不知道如何下手。原因是对 Linux 常用的命令还不熟悉,今天我就给大家介绍几个 Linux 常用命令。掌握它们的用法后,我们在使用 CRMEB 打通版系统的时候就能如鱼得水,可以大大提高工作效率。
纯手工打造每一篇开源资讯与技术干货,数十万程序员和Linuxer已经关注。 Linux技术交流QQ群:2659793(十二月最新!!) Redis数据库(Redis 如何表示一个数据库,数据库操作是如何实现的) 当Redis服务器初始化的时候会创建 redis.h/REDIS_DEFAULT_DBNUM(后面简写 N ) 个数据库,且数据库的id是从 0 到 N-1 , 所有的数据库保存到 redis.h/redisServer.db 数组中 。 在客户端可以通过 “SELECT” 命令进行切换,其中程序
其实早在去年我们就已经开始接触并研究clickhouse了,因为当时进行多表关联测试性能并不是特别优秀,所以并没有在线上大范围使用,当时研究的是分布式部署 (感觉分布式会比单机好一些)最后发现性能并不怎么样 而且分布式的sql也有很多限制,不支持单条删除和更新操作、不支持in和join(当时的版本,18.12.14之前),直到前几天看了携程一篇关于clickhouse的文章,将clickhouse的性能描述的神乎其神,再次勾起了我研究的欲望,附携程公众号文章 干货 | 每天十亿级数据更新,秒出查询结果,ClickHouse在携程酒店的应用
从大方面说基本上就是两类,一类是链路出了问题,包括网络抖动,链路环中的某一节点抖动等。另一类是服务本身的问题,包括服务器自身问题如磁盘老化等,还有代码bug造成的服务等待或服务器负载问题。
相信大家都有感触,线上服务内存OOM的问题,是最难定位的问题,不过归根结底,最常见的原因: 本身资源不够 申请的太多 资源耗尽 58到家架构部,运维部,58速运技术部联合进行了一次线上服务内存OOM问题排查实战演练,将内存OOM问题定位三板斧分享出来,希望对大家也有帮助。 题目 某服务器上部署了Java服务一枚,出现了OutOfMemoryError,请问有可能是什么原因,问题应该如何定位? 不妨设服务进程PID为10765(没错,就是CPU占用高的那个倒霉的进程《线上服务CPU100%问题快速定位实战》)
随便测了青岛OJ的docker,好不容易跑完压力测试,一看Analysis给我整晕了。就这?
攻击者借助代理服务器生成指向受害主机的合法请求,实现DDOS和伪装就叫:CC(ChallengeCollapsar)。
经常关注我们FreeSWITCH中文社区的人知道,从2013开始,每年我们都会举办多次FreeSWITCH培训。
Redis变慢排查的上一篇,我们是基于Redis命令为入口,比如命令使用不得当,bigkey问题,以及集中过期问题来看现象和如何进行优化处理的,认真读过的同学想必大家对这些现象和处理方式有了比较深的印象。
前言 我们再看知识体系的时候,我们学一个东西的时候,每次我们都回过头去看一看,这就是所谓的不忘初心。这个说着容易做起来难,当一个人慢慢在成长,在进步的时候,是很难做到不忘初心的。 我们之前说了DNS缓存、浏览器缓存(维护了这么久的服务器,你真的认识 Web 缓存体系?),所以浏览器就是我们安排在千家万户缓存代理服务器,你把浏览器缓存用好,性能就不用说。 为什么这么说?如果遇到关于session或cookie的过期时间这样的问题,浏览器都不会向服务器发送连接请求。它直接用浏览器本地缓存就打开了,你说它快还是不
最近支付宝小程序允许个人开发者上架应用了。我也很快的改写了我的《疫苗批号查询》程序,顺利过审上架。并且明显能看到阿里虽然在各个方面都是在抄袭微信小程序,但无论是IDE还是管理后台都更上了一个层级。这不昨天我的小程序上架满一周评级出来了,B级看了下健康问题主要是首屏开启过慢部分用户会超过3000ms。
经常收到后台读者发过来同样的问题,看完「开发内功修炼」以后觉得写的不错。问:“飞哥你平时是怎么样磨炼自己的技术能力,并写出这些文章的?另外可否帮推荐几本书更系统地学习一下”。今天干脆就写一篇文章统一回复一下。
究竟哪些东西可以影响到我们服务器的性能呢? 无非就是:CPU、磁盘IO、内存等等一系列硬件 在研究性能时候,先带大家来了解三个术语 QPS: 每秒查询率QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准,简言之就是数据库每秒能查多少数据 TPS: 服务器每秒处理的事务数。TPS包括一条消息入和一条消息出,加上一次用户数据库访问。(业务TPS = CAPS × 每个呼叫平均TPS) 并发量: 同一时间处理请求的数量,注意不要和同时连接数搞混,连接数要比并发量多的多的多 如果存
对于Redis服务器来说,内存资源非常宝贵,如果一些过期键一直不被删除,就会造成资源浪费,因此我们需要考虑一个问题:如果一个键过期了,它什么时候会被删除呢?
去年换工作时系统复习了一下.NET Core多线程相关专题,学习了一线码农老哥的《.NET 5多线程编程实战》课程,我将复习的知识进行了总结形成本专题。
前言:在进入Linux进阶知识之前,我们还需理解最后一点知识,先认识理解冯诺依曼体系结构,再认识理解操作系统定位这样才能更好的理解后面的知识
大数据、云计算、人脸识别、自动驾驶……近年来这些耳熟能详的人工智能科技,正在悄然改变着我们的生活。英特尔作为全球领先的科技公司,一直致力于用人工智能解决大问题。
综述 流程: 怎么连接Linux服务器 连接之后的语料的常用文本处理命令 运行代码时的常用信息查看命令 详细讲解! 怎么连接Linux服
模拟用户在同一时间对服务器发送大量请求,以此查看服务器性能指标,尤其关注大业务量情况下运行系统性能的变化(反应变慢、是否会内存泄漏导致系统逐渐崩溃、是否能恢复),测试系统的限制和故障恢复能力,找系统瓶颈
某天突然发现服务探测接口疯狂告警、同时数据库CPU消耗也告警,最后系统都无法访问;
业务中断如何定义?对于现在的应用来说,都是高可用的,那么意味着挂了一个其实没什么关系,就像人员的主备,好像暂时还没出现人员的双活情况,双活可能导致的问题就是心跳不同步,信息不到位,从而导致脑裂。
大概就是在几个月之前本人租了一台服务器用来搭建自己的博客(原来的博客是在阿里云香港服务器上面,在十一期间被和谐了),于是租用了1核1G内存的云服务器(三年800多元),可是在使用的过程中发现cpu和内存占用有点异常,查了下发现以下问题:
步骤5执行后,发现找到的占用cpu比较高的线程都是GC线程。这也是top出的结果中该进程占用cpu达200%多的原因。这也与报错中的下面这段信息一致:
一个静态页面不需要服务器多少资源,甚至可以说直接从内存中读出来发给你就可以了,但是博客论坛等PHP程序就不一样了,Nginx、Apache需要运行PHP程序对.php文件进行解析。再由php到数据库中读取相关展示内容以及判断是否有读帖子的权限,显示出来——这里至少访问了2次数据库,如果数据库的数据容量有200MB大小,系统很可能就要在这200MB大小的数据空间搜索一遍,这需要多少的CPU和IO资源?如果我是查找一个关键字,那么时间更加可观,因为前面的搜索可以限定在一个很小的范围内,比如用户权限只查用户表,帖子内容只查帖子表,而且查到就可以马上停止查询,而搜索肯定会对所有的数据进行一次判断,消耗的时间是相当的大。
监控Linux服务器的工具、组件和程序网上有很多,但是一台服务器上会有很多进程同时运行,特别是做性能测试的时候,可能一台服务器上部署多个服务,如果只监控整个服务器的CPU和内存,当某个服务出现性能问题时,并不能有效准确的定位出(当然通过其他工具也可以实现),因此,很有必要只监控指定的进程。需求明确了,于是动手撸了一个性能监控脚本。
我们经常会遇到一些问题,如HTTP的CC攻击与FTP的TCP-FLOOD攻击等,如下图所示,我们可以看到非法用户的持续性的匿名猜测性攻击.这时候我们有多种解决方法,你可以尝试通过封锁IP来解决这个问题,当然你需要是写一个shell,判断当用户多少次的尝试登录就进行封锁等等。 CC是一种攻击工具(软件),基于DDOS攻击的原理! 首先DoS(Denial of Service) :阻断服务,泛指黑客试图妨碍正常使用者使用网络上的服务。 DDoS(Distributed Denial of Service)
朋友发来一个公司的分析报价单,让我看看。这些分析虽不是太懂,不过也了解一些。人的CIRCOS是画过的,我的小破服务器(32核,256G内存)处理起来没任何压力。一个家族基因鉴定、进化分析据说一台普通笔记本都可以做。重复序列多时分析是困难些,50T内存,倒显得我孤陋寡闻了。
2011-09-06 线上8核 linux服务器,负载为8为正常情况,目前CPU负载过高,最高负载30多,平均负载在20左右,已经持续近一周,具体占用CPU资源的服务是tomcat_sc,占用CPU资源高达:720% 使用jconsole去跟踪 更改catalina.sh 启动设置: $ CATALINA_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=8933 -Dcom.sun.manageme
很多人在面试时,会被问到这样的问题:遇到过什么系统故障?怎么解决的?下面是笔者根据自己15年互联网研发经历总结的多个线上故障真实案例。相信可以帮你从容应对面试官的提问!
由于单位的安全要求,原有的一个应用由互联网区域机房搬迁至内网机房,然后业务系统走内网进行访问。新服务器是网管给重新做的,CentOS 8.1 + Oracle 19c,我把数据库、应用都迁移到新服务器上之后,发现莫名其妙的卡顿,一开始我以为是内网的问题,没有在意,但后来发现,每次都是规律性的卡顿,表现为:第一次访问或者隔几分钟第一次访问的时候,会卡顿10秒,然后就恢复正常速度,页面秒开。如果停几分钟不访问,再次打开时,还是会卡顿10多秒。
随着近些年信息化大跃进,各行各业无纸化办公产生了大量的数据,而越来越多的数据存入了数据库中。当使用MySQL数据库的时候,单表超出了2000万数据量就会出现性能上的分水岭。并且物理服务器的CPU、内存、存储、连接数等资源有限,某个时段大量连接同时执行操作,会导致数据库在处理上遇到性能瓶颈。为了解决这个问题,行业先驱门充分发扬了分而治之的思想,对大表进行分割,然后实施更好的控制和管理,同时使用多台机器的CPU、内存、存储,提供更好的性能。而分而治之则有两种方式:垂直拆分和水平拆分。
领取专属 10元无门槛券
手把手带您无忧上云