首先介绍了EDAC应用的背景,接着是EDAC的原理介绍,然后通过EDAC安装——配置——测试过程详细地介绍了EDAC在vivo服务器上的应用,最后提出了内存预测使用EDAC的方案总结以及服务器RAS(Reliability...二、EDAC 原理介绍EDAC(Error Detection And Correction)是Linux系统的错误检测和纠正的框架,它的目的是在linux系统运行过程中,当错误发生时能够发现并且报告出硬件错误...那么EDAC是如何控制和报告设备故障的呢?它又是如何将故障定位以及记录到对应的内存条上的呢? Linux 是通过sysfs文件系统来展示内核设备的层次关系,EDAC则通过它来控制和报告设备故障。...三、EDAC 的应用EDAC在vivo 现网中的应用过程主要分为以下几步:(1)EDAC在Linux系统中的支持EDAC在Linux 2.6.16以上的内核中以及系统发行版都已经得到了支持,但是内核中edac...i3000_edac.ko.xz i5000_edac.ko.xz i5400_edac.ko.xz i7core_edac.ko.xz ie31200_edac.ko.xz skx_edac.ko.xze752x_edac.ko.xz
RAS(一)介绍 写在开篇之前 近期收到了公司大礼包,想着在找工作期间把Linux RAS整理一下,写成系列文章。...期间也有不少其他团队过来请教过RAS事项,所以想着记录下来,对以后计划了解和学习RAS的Linux爱好者有所帮助。...另外个人视角主要从Linux内核出发,梳理Linux RAS涉及的组件、功能、特性都有哪些,也会介绍内核RAS涉及的硬件。...4.软件多样性 对于Linux驱动来说,包括mce驱动、apei驱动、edac驱动等; 对于用户态RAS服务来说,包括mcelog、rasdaemon、perf event通知等; 总体来说,RAS是一个复杂的体系...C++[22715.830801] EDAC sbridge MC3: HANDLING MCE MEMORY ERROR[22715.834759] EDAC sbridge MC3: CPU 0:
本篇主要介绍说下跟低延迟相关的BIOS配置和Linux操作系统优化的建议,主要针对Gen10的HPE Synergy计算模块以及HPE ProLiant DL系列服务器获得最低延迟性能。...以下针对Linux的配置优化,仅针对该机型。HPE比较操蛋的是,每个机型配置都会改变,Dell不知道是不是这样。...( Error Detection and Correction ) 步骤如下: 1.查看EDAC是否启用 #lsmod | grep edac 2.如果有发现EDAC模块,则在 。...在支持modprobe的OS版本中/etc/modprob.conf加入一行 alias edac_xxx off 。...由于linux调度器不可避免的中断,每个内核每秒都会经历一对抖动event(纠正方法如前所述)。
对于ECC,REG这些带有纠错功能的内存故障检测是一件很头疼的事情,出现故障,还是可以连续运行几个月甚至几年,但如果运气不好,随时都会挂掉,好在linux中提供了一个edac-utils 内存纠错诊断工具...服务器的硬件架构 下面以CentOS为例,介绍下edac-utils 工具的使用。...在使用edac-utils 工具之前,需要先了解服务器的硬件架构,以DELL R620为例,(其它如HP DL360P G8,IBM X3650 M4 机型都使用了 E5-2600 系列CPU,C600...和A12 处理器1 (对应一个内存控制器) 通道0:内存插槽B1、B5 和B9 通道1:内存插槽B2、B6 和B10 通道2:内存插槽B3、B7 和B11 通道3:内存插槽B4、B8 和B12 安装edac-utils...工具 yum install -y libsysfs edac-utils 执行检测命令 通过检测命令可查看纠错提示信息: [root@md1 ~]# edac-util -v mc0: 0 Uncorrected
可纠正的错误 {{ \$labels.instance }}在过去5分钟内,EDAC报告了{{ printf "%.0f" $value }}可纠正的内存错误。...- alert: HostEdacCorrectableErrorsDetected expr: increase(node_edac_correctable_errors_total[5m])...> 0 for: 5m labels: severity: info annotations: summary: Host EDAC Correctable...\n VALUE = {{ $value }}\n LABELS: {{ $labels }} 检测到主机EDAC不正确的错误 {{ \$labels.instance }}在过去5分钟内,EDAC...# See https://medium.com/faun/how-much-is-too-much-the-linux-oomkiller-and-used-memory-d32186f29c9d
可纠正的错误 {{ \labels.instance }}在过去5分钟内,EDAC报告了{{ printf "%.0f" - alert: HostEdacCorrectableErrorsDetected...expr: increase(node_edac_correctable_errors_total[5m]) > 0 for: 5m labels: severity...\n VALUE = {{ $value }}\n LABELS: {{ $labels }} 检测到主机EDAC不正确的错误 {{ \labels.instance }}在过去5分钟内,EDAC报告了...: {{ $labels.instance }} has had {{ printf "%.0f" $value }} uncorrectable memory errors reported by EDAC...# See https://medium.com/faun/how-much-is-too-much-the-linux-oomkiller-and-used-memory-d32186f29c9d
错误检测与纠正电路(Error Detection And Correction,EDAC)也是一种简单高效的防护单粒子翻转的电路设计方法。...EDAC 主要依据检错、纠错的原理,通过转换电路将写入的数据生成校验码并保存,当读出时靠对校验码进行判定,若只有一位出错系统则自动纠正并将正确的数据输出,同时还会进行数据的回写从而覆盖原来出错的数据。...EDAC尽管纠错能力强大,但是需要纠错、译码电路,因此结构较为复杂,不适宜用于高性能的数据通道中。EDAC也可用于纠正多bit出错的情况,但是纠错电路会更加复杂。...权衡TMR和EDAC的优缺点,通常会在逻辑电路设计中使用TMR,在存储器读写电路中使用EDAC。 (4)模块独立化 单粒子翻转频繁出现,必须考虑到翻转发生之后不影响芯片的整体功能。
跟随上个月的 Red Hat Enterprise Linux 8.4 版本的发布,再到后来的基于 RHEL 8.4 的 Alma Linux、Oracle Linux 和 CentOS 8的更新,RockyLinux...Rocky Linux 是CentOS创始人Greg Kurtzer等人瞄准的免费 RHEL替代品。 Rocky Linux 8.4 现已正式发布。...且不支持从 Rocky Linux 8.3 RC1、Rocky Linux 8.4 RC1 或任何其他候选版本迁移到 Rocky Linux 8.4。...Rocky Linux 团队提供了 migrate2rocky 工具用于帮助使用者从其他企业 Linux 系统迁移到 Rocky Linux 8.4。...支持第 8、 9 代英特尔酷睿处理器中设置的错误检测和纠正 (EDAC) 内核模块。
-2.40.1.linux-amd64/NOTICE prometheus-2.40.1.linux-amd64/prometheus prometheus-2.40.1.linux-amd64/LICENSE...-2.40.1.linux-amd64/prometheus.yml prometheus-2.40.1.linux-amd64/consoles/ prometheus-2.40.1.linux-amd64...node_exporter-1.4.0.linux-amd64/ node_exporter-1.4.0.linux-amd64/LICENSE node_exporter-1.4.0.linux-amd64...-0.24.0.linux-amd64/NOTICE alertmanager-0.24.0.linux-amd64/alertmanager alertmanager-0.24.0.linux-amd64...> 0 for: 0m labels: severity: warning annotations: summary: Host EDAC
大部分项目设计需要一个稳定的Linux版本,但是又需要修复内核漏洞。这种情况下,跟随LTS版本升级,是最好的办法。 很多项目也需要改善Linux的实时特性。.../pub/linux/kernel/v4.x/linux-4.14.52.tar.xz;https://mirrors.edge.kernel.org/pub/linux/kernel/projects...使用patch,将patch-4.14.52-rt34.patch, 应用到linux-4.14.52,得到linux-4.14.52-rt。...在将得到的patch文件,应用到linux-4.14.52-rt,得到linux-4.14.52-rt-xlnx。部分文件需要手工合并。...MC: ECC not enabled [ 2.657430] EDAC DEVICE0: Giving out device to module zynqmp-ocm-edac controller
GetString(byteList); } 这里的 text 的内容大概如下 "\u0011\0MultiStartupProj\0=\u0003\0\0;4\0{45171CDC-EDAC...-4D0B-BDF8-63DE2D4F947B}.dwStartupOpt\0=\u0003\0\0;\u000f\0StartupProject\0=\b&\0{45171CDC-EDAC-4D0B-BDF8...-63DE2D4F947B};A\0{45171CDC-EDAC-4D0B-BDF8-63DE2D4F947B}.Release|Any CPU.fBatchBld\0=\u0003\0\0;?...\0{45171CDC-EDAC-4D0B-BDF8-63DE2D4F947B}.Debug|Any CPU.fBatchBld\0=\u0003\0\0;4\0{AE3577E5-5D4E-44F8-
安装node_exporter 从 Prometheus 的官网下载安装包,这里下载的是 Linux 安装包。...下载地址: https://prometheus.io/download/ 安装包: node_exporter-0.18.1.linux-amd64.tar.gz $ tar zxvf node_exporter...-0.18.1.linux-amd64.tar.gz $ cd node_exporter-0.18.1.linux-amd64/ $ ....INFO[0000] - diskstats source="node_exporter.go:104" INFO[0000] - edac
Linux的进程排查总体思路和windows的不会偏差太多,具体到细则上存在差异,今天就和师傅们来探讨下Linux下的进程分析及排查。...所以相对来说Linux的进程排查思路可以收缩一些,不会像Windows那样及其需要发散思维。...kworker "kworker" 是 Linux 内核的工作线程,用于异步处理工作队列中的任务。...writeback writeback进程是Linux内核中的一个常驻内存的线程,负责将dirty的数据刷新到磁盘。...md edac-poller EDAC:主要用来检测物理内存 和 PCI硬件错误 kswapd0 kswapd0是一个挖矿病毒的进程,可能与tke搭建k8s平台或者安装docker的过程有关。
Linux软件简介 Linux上几乎所有的软件都经过了GPL授权,因此几乎所有的软件都会提供源码。...而一个软件要在Linux上执行,必须是二进制文件,因此当我们拿到软件源码后,需要将它编译成二进制文件才能在Linux上运行。...Linux函数库 1. 什么是“Linux函数库”? 运行在Linux上的软件时常会调用Linux内核的某些功能或其他软件的某些功能,那么这些被软件调用的功能称为Linux的函数库。...Linux函数库的分类 Linux函数库分为静态函数库 和 动态函数库。 1. 静态函数库 - 扩展名:xxx.a - 在编译时会被整合到软件的二进制文件中去。....1 => /usr/lib64/libuser.so.1 (0x0000003edac00000) libcrypt.so.1 => /lib64/libcrypt.so.1 (0x0000003edc400000
top 命令 是每个人都在使用的用于 监控 Linux 系统性能 的最好的命令。你可能已经知道 top 命令的绝大部分操作,除了很少的几个操作,如果我没错的话,批处理模式就是其中之一。...如果你想解决 Linux 服务器上的任何性能问题,你需要正确的 理解 top 命令的输出。...0 -20 0 0 0 S 0.0 0.0 0:00.00 [md] 26 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 [edac-poller...但是如果你想要检查一个进程在 Linux 上运行了多长时间请看接下来的文章: 检查 Linux 中进程运行时间的五种方法 # top -bc -o TIME+ | head -n 20 top - 06...0 -20 0 0 0 S 0.0 0.0 0:00.00 [md] 26 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 [edac-poller
ipmi_ssif ipmi_devintf ipmi_si mei_me pcspkr iTCO_wdt mxm_wmi iTCO_vendor_support dcdbas mei sg sb_edac...edac_core ipmi_msghandler shpchp lpc_ich wmi acpi_p ower_meter xfs libcrc32c sd_mod crc_t10dif crct10dif_generic...kernel: ---[ end trace 6bc65b0c591c1794 ]--- 主机环境如下: System | Dell Inc.; PowerEdge R620; Platform | Linux
opt]# wget https://github.com/prometheus/node_exporter/releases/download/v0.18.1/node_exporter-0.18.1.linux-amd64....tar.gz [root@devops opt]# tar -zxvf node_exporter-0.18.1.linux-amd64.tar.gz [root@devops opt]# cd node_exporter...-0.18.1.linux-amd64 [root@devops node_exporter-0.18.1.linux-amd64]# ....INFO[0000] - diskstats source="node_exporter.go:104" INFO[0000] - edac...-2.15.1.linux-amd64 [root@devops prometheus-2.15.1.linux-amd64]# ls console_libraries consoles data
article/49ad8bce54b1535834d8fa86.html SDK环境变量配置 http://jingyan.baidu.com/article/e75aca85508d15142edac6b8
领取专属 10元无门槛券
手把手带您无忧上云