首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

服务器内存故障预测居然可以这样做!

​ 作者:vivo 互联网服务器团队- Hao Chan随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障故障率高、频次多、影响大,这些对于上层业务而言都是不能接受的。...然而硬件故障一直以来都是一种普遍存在的现象,由于硬件故障而造成的损失往往是巨大的。在服务器各个部件中,除硬盘故障以外,内存故障是第二大常见的硬件故障类型。...并且服务器内存的数量众多,vivo的内存数量达到40w+条,内存故障造成的最严重的后果是会直接导致系统崩溃,服务器宕机,这些对于上层业务而言都是不能接受的。...EDAC在vivo服务器全量上线过程以来,累计提前发现450+ case的内存CE问题,服务器的宕机数量明显减少。...对满足报修标准服务器业务进行迁移,并更换相应的内存条,避免因服务器突然宕机导致业务的不稳定,甚至因此造成的损失。

18.1K20

服务器机房建设要求

图片一、机房选址1、机房要求设在办公区内,晚上闭店后便于工作人员进出 2、远离大负荷用电设备、远离强震源和强噪声源。 了、要专處便于安装笔调外甚机。...机房房间的设買及面积要求:二、机房房间设置及面积要求开算机机房一般设有服务露室、终端室、设备,总面积应不小手 35 平方米。房间用途服务器室放置小型机、PC服务器、交换机等设备,为中心机房。...终端室放置台式计算机、行式打印机、普通打印机、座位机房人员工作室、报表打印室。设备室放置机房配电柜、UPS电源及电池组等。图片要求服务器室与设备间要相邻,服务器室与终端室间采用玻璃割断。...服务器室净商,应按机柜高度和通风要求确定,宜为24~3.0m。...三、服务器室的基本要求服务器室是机房系统中的核心部分,对环境的要求较高。

4.8K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    机房KVM切换器如何安装?故障如何解决?

    服务器机房的机架不便于存放多个显示器和键盘的空间里,KVM切换器起着重要的作用。...,只有1U的占用空间,管理起来非常方便,也可以实现远程访问,非常适用机房服务器多的管理。...KVM切换器所具有的灵活性,足以满足任何家庭办公、中小型企业、中小型机房等多计算机与多服务器应用的需要。 三、KVM常见品牌有哪些? KVM的品牌有很多,我们来看下一般常用的牌子有哪些?...[1619273105748-image.png] 四、KVM切换器常见故障解决方案 A、初次连接使用KVM切换器,KVM切换器不能正常工作。...(PC)至KVM切换器的1端口,检查KVM切换器是否能正常切换,服务器(PC) 的键盘,鼠标,显示是否正常,如还是不能正常工作,可尝试重启服务器(PC); 9、在确保前面8个步骤顺利操作完成后,逐步增加服务器

    1.7K00

    服务器多线机房怎么判断

    1、BGP多线机房  首先一个机房要想成为BGP多线机房,要具有自主IP和AS号;IP用来在移动、联通、电信等运营商之间广播学习,而AS号可以中国互联网信息中心(www.cnnic.cn)查询到;其次,...具备上述条件如果依然不能满足我们的南北互联互通的需求,这样的机房也算不上BGP多线机房。...这里我们可以使用第三方测速工具来检查不同区域不同线路到机房响应时间,如果仅个别区域出现超时情况,此类机房还是可以考虑的。...2、多线多IP机房  这类机房,IDC服务商会给你提供多个IP,比如说一个电信IP,一个网通IP。...如果你通过远程桌面登录服务器,看到服务器上绑定了多个IP,同时这个域名还解析到了多个IP,那么这是多线多IP机房

    2.4K10

    服务器租用机房的类型有哪些

    服务器租用机房的类型有哪些1、单电信机房单电信服务器机房业务模式比较固定,访问量也不是很大,适合新闻类网站或政务类网站。...如果网站的PV流量持续增加,建议后期采用租赁CDN的方式解决非电信用户访问网站速度过慢的问题2、双线机房双线机房在单线机房上有所升级,主要是因为机房接入了两个运营商带宽线路。...因为国内两大网络(电信和网通)之间存在互联互通的问题,所以电信用户访问网通网站或网通用户访问电信网站很慢,也此产生了双线机房、双线服务器、双线服务器托管和双线服务器租用服务。...采用BGP方案实现双线路互联或多线路互联的机房称为BGP机房。...在条件允许的情况下,选择服务器租用和服务器托管时尽量选择BGP机房,可以带给用户最优的访问体验。

    16.7K20

    服务器故障邮件报警

    说到服务器硬件监测,用得最多的自然是Zabbix和prometheus,可是对于一般用户来说,部署要求比较高,而且也没有必要。...只是监测服务器硬件故障,并且发生问题的时候,以邮件形式告警,那么服务器自带的功能就足以。 比如戴尔服务器的idrac,配置硬件故障的邮件告警就非常简单。...如上图所示,首先填写邮件发送服务器的地址,其次就是填写发件人邮件地址,然后就是SMTP端口号,采用SSL协议的话,端口号就填写465;最后填写用户名和密码,就是发件人的邮件账号和密码。...收件人邮件地址,当然也需要填写,不然故障报给谁呢?然后可以“发送”测试邮件,一般都是秒收,如果没收到,就检查SMTP配置。...我比较关注系统运行状况和存储,尤其是存储,重要的数据都在硬盘里面呢,其他硬件故障,相对来说,没那么重要,电源坏了,可以换,内存坏个一两条,也无伤大雅。硬盘要是坏了,那就损失大了。

    24230

    MySQL内存溢出问题:故障排除指南

    在本文中,我将向您展示如何使用新版本的MySQL(5.7+),以及如何更容易地解决 MySQL内存分配中出现的问题。 故障排除从来都不是一项有趣的任务,尤其是像这种MySQL因为内存不足而崩溃的故障。...有了新版本的MySQL(5.7+)和performance_schema,一切都不同了,我们可以更轻松地对MySQL内存分配进行故障排除。 在本文中,我将向您展示如何使用它。...服务器上运行有其他进程在分配RAM。例如:它可以是某种应用程序(Java、Python、PHP)、web服务器,甚至是备份(即mysqldump)等。当问题的根源被确定后,就可以直接修复了。...MySQL中的内存泄漏。这是最坏的情况,我们才需要进行故障排除。...从哪里开始对MySQL内存泄漏进行故障排除 下面是我们可以从下面步骤开始((假设它是一个Linux服务器)): 第1部分:Linux操作系统和配置检查 1.

    5.9K20

    IDC服务器故障排除思路

    2、备件准备硬盘、内存、CPU、主板、电源模块等备件二、常规检查在不拆机、不断电的情况下检查故障服务器1、检查开机状态下服务器指示灯是否正常2、检查有无明显异味、有无明显异响3、检查外观有无明显磕碰、变形等物理损伤...4、检查电源线、电源开关是否正常5、登录BMC系统,查看设备状态和日志,定位故障服务器部件6、在授权可以关机断电的情况下,重启服务器,查看BIOS信息和BMCSEL信息定位服务器故障部件7、如确定为可热插拔的设备造成...通过逐一替换服务器内的疑似故障部件,观察故障现象是否消失,以此定位故障部件。可以先替换比较容易出故障的部件,比如硬盘、内存等。...3、内存故障内存故障主要原因为:内存松动、内存不良、主板内存插槽不良、内存金手指氧化等。可以查看BMC log日志信息,是否存在告警。...如果无法获取,则BMC故障,需要更换主板总结:1、系统无法开机和死机基本都是CPU、内存、主板故障导致的;系统自动重启一般也是和主板CPU有关2、服务器故障处理,一般需要综合处理,综合判断,灵活使用

    8510

    故障分析 | 租户 memstore 内存满问题排查

    如果冻结功能正常,租户 memstore 占用内存到达 major_freeze_trigger 之后,就会先冻结、然后转储该租户下的 MemTable,转储完成的 MemTable 占用的内存会从 active_memstore_used...,该 MemTable 所属租户 memstore 已占用内存。...因为租户 memstore 占用内存达到 freeze_trigger_percentage 对应的内存上限之后,会触发租户级别的转储,也就是该租户下的所有 MemTable 都会进行转储。...如果是 OB 2.2.x 版本,可以通过以下 SQL 查询已冻结但未释放内存的 MemTable,是否因为存在活跃事务,导致转储调度异常,内存无法释放。...如果确认了转储调度正常,转储过程也正常,但是已冻结的 MemTable 内存却没有释放,那再确认下是否因为 MemTable 的引用计数异常,导致内存无法释放。

    94240

    服务器硬盘故障预测实践

    理论上服役时间越长的服务器发生故障的几率也将越大,从腾讯全网服务器的统计结果也表明服务器老龄化的加剧,故障概率会加速上升,特别是使用年份超过4年的设备故障率将出现陡升的情况,显而易见高故障率的老龄化设备将对现网业务造成巨大的影响...我们的服务器使用年限超过5年后,硬盘故障率都是非常高。 ? 于是乎,想快速有效的降低服务器故障的影响,核心就在于降低硬盘故障的影响。...或许这些服务器配置信息能给出一些统计结果,我们想要的是即将故障的硬盘,而不是这些差异性不大的各个集合的整体故障率。...为了支持我们提供了运营模型设置,主要包括服务器类型,上架年限,服务器健康度,业务模块,预测比,坏块比,性能参数等,系统会根据这个设置表,对满足其中任意一条规则的预测故障盘,自动发起故障流程。...成功预测的硬盘故障数量,粗略估算已覆盖SATA硬盘故障数的50%左右,进而促使5年以上服务器对业务影响的硬件整体故障率也下降了0.5%。

    13.5K90

    机房服务器稳定运行的重要性

    这就面临着服务器托管、服务器租用、高防服务器租用、服务器带宽租用等业务选择。 对于一般的企业用户来讲,选择第三方IDC服务商的服务器是相对而言性价比较为高的一种方式。...IDC数据中心机房内的环境和稳定性决定了服务器的运行环境和稳定性,因此如果选择服务器租用的话,对于数据中心内的带宽、网络、电力等等进行具体考察,并根据这些要求衡量数据中心机房环境能否保障服务器的长时间的持续稳定运行...如果企业用户决定选择服务器托管,那么在前期一定要根据需求自行配置好服务器,再将服务器托管到靠谱的数据中心机房。...服务器租用或者服务器托管时,大多数企业用户都会关注服务器的具体配置和价格,往往会忽略服务器所在的数据中心位置和机房环境。其实数据中心位置和机房环境是非常重要的一环。数据中心位置越近,传输速度才会越快。...IDC数据中心机房服务器稳定运行的重要性不言而喻,不管是选择服务器托管、服务器租用、高防服务器租用、服务器带宽租用等等业务,切记一定要选择靠谱的IDC服务商来满足自身的业务需求。

    2.8K20

    Kubernetes 触发 OOMKilled(内存杀手)如何排除故障

    1写在前面 ---- 简单整一下 k8s 中 Pod 故障 OOMKilled 的原因以及诊断 博文内容涉及: k8s OOMKilled 分类: 宿主节点行为 / K8s Cgroups 行为 什么是...Killed 通过上下内存信息可以发现,当分配1000M内存时,宿主机用户使用内存增加了1000M,可用内存为117M,当申请内存为2000M时,超出宿主机可用内存,bigmem 2000M命令所在进程直接被...这可以帮助您确定哪些容器消耗了太多内存并触发了 OOMKilled 错误。 使用内存性能分析器:使用 pprof 等内存性能分析器来识别可能导致内存过度使用的内存泄漏或低效代码。...需要调试应用程序以解决内存泄漏的原因。 节点过载 — 这意味着 Pod 使用的总内存大于可用的总节点内存。通过纵向扩展来增加节点的可用内存,或将 Pod 移动到具有更多可用内存的节点。...(指定的最小内存),但低于其内存限制 使用超过其内存限制的 Pod 要点 为避免 OOMKilled 错误,建议监控 Kubernetes Pod 和容器中的内存使用情况,设置资源限制以防止容器消耗过多内存

    1.1K20

    Java内存故障?只是因为你不够帅!

    本文是关于Java故障排查的,属上篇。 为了保证文章的流畅性,我决定一口气把它写完。因为相关方面的培训做的多了,就不需要在写的时候参考资料、翻源代码。掐指一算,本文一个小时没花掉,但篇幅已经较长了。...1.内存里都有啥 2.操作系统内存 3.JVM内存划分 4.一图解千愁,jvm内存从来没有这么简单过!...一部分是物理内存,指的是我们插的那根内存条;另一部分就是使用磁盘模拟的虚拟内存,在Linux通常称做swap分区。所以,可用内存 = 物理内存 + 虚拟内存。...本地内存:其他的内存占用空间 ?...6.垃圾回收器 内存问题有两种模式,一种是内存溢出,一种是内存泄漏。 内存溢出 OutOfMemoryError,简称OOM,堆是最常见的情况,堆外内存排查困难。

    66622

    线上应用故障排查之二:高内存占用

    前一篇介绍了线上应用故障排查之一:高CPU占用,这篇主要分析高内存占用故障的排查。...,以及在实际计算机系统中将变量存储到内存和从内存取出变量这样的低层细节。...现在以一个实际的例子分析内存占用的故障排查。 通过top命令,发现PID为9004的Java进程一直占用比较高的内存不释放(24.7%),出现高内存占用的故障。...想起上一篇线上应用故障排查之一:高CPU占用介绍的PS命令,能否找到具体是哪个的线程呢?...特别是占用了大量内存的int数组,需要仔细检查相关代码。 最后,总结下排查内存故障的方法和技巧有哪些: 1、top命令:Linux命令。可以查看实时的内存使用情况。

    1.3K30
    领券