首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

混沌工程之磁盘

在上一个文章中详细了介绍了什么是混沌工程以及混沌工程执行的原则,和混沌工程实验中数据库调用延迟,下来详细的介绍另外一个混沌实验,也就是云服务器磁盘的情况的模拟实验和解决思路。...实验的核心是模拟当服务器的磁盘的情况下,这个时候服务器就会成为只读的属性。...比如举个案例,当DB的服务器磁盘的情况下,那么这个时候DB服务器就成为只读属性,这个时候产品使用的数据库由于成为了只读属性,意味着使用这个DB的服务器就会出现大面积的瘫痪导致服务不可用。...下来首先模拟下磁盘的操作,在操作前首先查看磁盘已使用的空间以及可使用的空间,具体如下: 系统资源整体性的监控信息具体如下图所示。...那么在如上的实验中,需要思考的是在磁盘的情况下需要很快速的触发报警机制,然后来排查到底是什么原因导致磁盘空间以及针对情况需要给出具体的技术解决方案,同时也要能够快速的切换到一个正常的服务器继续让产品的服务能够提供服务

67330
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Linux 环境文件如何稳定跑磁盘 IO 带宽?

    在 限制内存 的情况下,假定我们每次写入 4k 的数据,如何保证 kill -9 不丢数据的情况下,仍然稳定的跑磁盘的 IO?...又因为限制内存,所以直观的想法是直接 Direct IO, 但 Direct IO 能否跑磁盘 IO 呢?...机器配置 CPU: 64 核 Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GHz 磁盘 : Intel Optane SSD 测试磁盘 IO 性能 官方称读 / 带宽是...通过数据我们发现,单次 4k 的 Direct IO 写入无法跑磁盘的 I/O 带宽,仅仅只有 800MB/S 实验三: mmap 写入 通过前面这两个实验我们发现,Buffer IO 是可以跑磁盘...(关于 mmap() 的源码分析,我们在后面的文章会详细分析 ),我们实验三的思路是: 首先 fallocate 一个大文件,然后 mmap() 内存映射 16k 的 Block, memcpy() 之后

    7K11

    Kubernetes之容器数据磁盘解决方法

    磁盘引发的后果 容器数据磁盘造成的后果: Pod 不能删除 (一直 Terminating) Pod 不能被创建 (一直 ContainerCreating) 磁盘满分两种情况: 磁盘空间全部使用完...被占满 $ df -i 文件系统 Inode 已用(I) 可用(I) 已用(I)% 挂载点 /dev/vda1 3276800 3276800 0 100% / 判断磁盘方法...不能直接使用 rm 删除日志文件,这样磁盘空间是不会释放的。...# 取消不可调度的标记 $ kubectl uncordon ${node-name} 定位问题根本原因及解决思路 日志输出量大,导致磁盘 减少日志输出,调整应用日志输出级别 增大磁盘空间 日志输出到统一日志收集中心...容器镜像占满磁盘 配置k8s垃圾回收策略 节点运行 images 定时清理脚本 可写层量大导致磁盘: 优化程序逻辑,不文件到容器内或控制写入文件的大小与数量 具体优化方法 配置 Docker日志轮转

    2.9K10

    Kubernetes 最佳实践:处理容器数据磁盘

    容器数据磁盘造成的危害: 不能创建 Pod (一直 ContainerCreating) 不能删除 Pod (一直 Terminating) 无法 exec 到容器 判断是否被: 容器数据目录大多会单独挂数据盘...判断是否被: $ df Filesystem 1K-blocks Used Available Use% Mounted on ......restart dockerd 取消不可调度的标记: kubectl uncordon 10.179.80.31 定位根因,彻底解决 问题定位方法见附录,这里列举根因对应的解决方法: 日志输出量大导致磁盘...: 减少日志输出 增大磁盘空间 减小单机可调度的pod数量 可写层量大导致磁盘: 优化程序逻辑,不文件到容器内或控制写入文件的大小与数量 镜像占用空间大导致磁盘: 增大磁盘空间 删除不需要的镜像...附录 查看docker的磁盘空间占用情况 $ docker system df -v [docker-system-df.png] 定位容器磁盘的原因 进入容器数据目录(假设是 /var/lib/

    3.9K32

    Kubernetes 最佳实践:处理容器数据磁盘

    容器数据磁盘造成的危害: 不能创建 Pod (一直 ContainerCreating) 不能删除 Pod (一直 Terminating) 无法 exec 到容器 判断是否被: 容器数据目录大多会单独挂数据盘...判断是否被: $ df Filesystem 1K-blocks Used Available Use% Mounted on ......restart dockerd 取消不可调度的标记: kubectl uncordon 10.179.80.31 定位根因,彻底解决 问题定位方法见附录,这里列举根因对应的解决方法: 日志输出量大导致磁盘...: 减少日志输出 增大磁盘空间 减小单机可调度的pod数量 可写层量大导致磁盘: 优化程序逻辑,不文件到容器内或控制写入文件的大小与数量 镜像占用空间大导致磁盘: 增大磁盘空间 删除不需要的镜像...附录 查看docker的磁盘空间占用情况 $ docker system df -v [docker-system-df.png] 定位容器磁盘的原因 进入容器数据目录(假设是 /var/lib/

    1K11

    线上磁盘导致MySQL复制失败案例一则

    // 线上磁盘导致MySQL复制失败案例 // 01 案例场景 今天在线上发现一个问题,由于监控没有覆盖到,某台机器的磁盘满了,导致线上MySQL主从复制出现问题。...We stopped at log 'mysql-bin.000446' position 9489626 从描述中可以看到,error log是比较智能的,发现了磁盘问题,并提示我们需要"consider...out of disk space" 02 解决问题 登录服务器,很快就发现是MySQL所在的服务器磁盘使用率达到100%了,问题原因跟error log中的内容一致。...基本的思路就是清理磁盘文件,然后重新搭建复制关系,这个过程似乎比较简单,但是实际操作中,在搭建复制关系的时候出现了下面的报错: ### 基于gtid的复制,想重新搭建复制关系 localhost....03 一点总结 当磁盘的情况发生之后,mysql服务无法向元信息表中数据,relay log也可能已经不完整了,如果直接清理了服务器上的磁盘数据,再去重新change master修改主从复制关系

    92520

    深入理解 linux磁盘顺序、随机

    一、前言 ● 随机会导致磁头不停地换道,造成效率的极大降低;顺序磁头几乎不用换道,或者换道的时间很短 ● 本文来讨论一下两者具体的差别以及相应的内核调用 二、环境准备 组件 版本 OS Ubuntu...1)同步随机 主要采用fio作为测试工具,为了能够看到系统调用,使用strace工具,命令看起来是这样 先来测试一个随机 strace -f -tt -o /tmp/randwrite.log...随机读每一次写入之前都要通过lseek去定位当前的文件偏移量 2)同步顺序 用刚才的方法来测试顺序 root@wilson-ubuntu:~# strace -f -tt -o /tmp/write.log...util=74.32% 可以看到,slat指标出现,lat 近似等于 slat + clat 之和(avg平均值);并且换成异步io之后,吞吐量得到了极大的提升,120M左右 六、总结 ● fio应该作为磁盘的...baseline工具,拿到机器(物理机或者云机器)都应该第一时间对机器的磁盘做一个基线测试,做到心中有数 ● 本文所有的测试,都是绕开了缓存,在实际应用中需要将缓存的影响考虑进去

    4.6K10

    Elasticsearch实战-磁盘IO被打

    咨询了ES团队,最终得到下面的答复: 当前集群现状: 1)当前集群数据IO最高的索引为XXX,数据量很小(100mb) 2)但是读写都很大(读>1000QPS,>1000QPS) ,使用的是线下环境的机器...个分片,看起来能加大写能力,但是机器数少,导致结果是每台机器分布了5个分片,等效于只做了2个分片,完全没有扩大写的能力 建议: 1)升级硬件,换成SSD 2)分片改成2个,这样读能力比以前肯定有提升,能力等价...测试环境ES有十台VM(非本地ESB磁盘)作为服务器。其中一台IO被打。其他机器负载、IO都很低。...只能继续沿用老的客户端使用; 我们预计在10月份左右会出一个自研的客户端, 会尽量避免出现一台机器导致部分查询出现问题, 但是也避免不了, ES内部的服务发现机制,我们改变不了,除非改ES 调查 1.需要换成本地磁盘...2.我们测试环境有10台服务器,10个分片,4个副本,/读QPS大概是7:6。究竟几个分片几个索引更合理? 因为每个分片和副本是同步比例大,副本多会对性能有很大影响。

    2.6K30

    【MySQL】磁盘之后,数据库show status受到阻塞的原因

    编辑手记:前两天同事讨论到一个问题,当mysql从库磁盘之后,show status及show slave status会被卡住,但其他select操作不受影响,但如果数据库是主库,磁盘满了之后,只有...2.下文中提到的磁盘,指的是数据文件(数据文件,日志文件,配置文件)所在磁盘分区。 3.由于篇幅问题,最后面的代码部分,只有关键的函数及逻辑判断部分。...2.每十分钟给日志文件写入一条记录,报告磁盘已经。 但是对不对?...上面是对主库所在磁盘之后,数据库实例的反应,下面讲讲我们遇到的情况:从库磁盘之后,show status及show slave status会被卡住,但其他select操作不受影响。...看了以上的结论,是否会想到另外一个操作顺序:磁盘->show status,这种操作的结果是:show status不会被阻塞的。

    2.3K60

    ELK学习笔记之容器filebeat占用过多varlog目录(filebeat进程磁盘)

    var/log目录被大量占用,触发监控告警; 按照docker日志的log rotate的原理,docker自己会控制日志量,即使段短时间内堆积了大量日志,docker会通过加快删除旧日志的方式,维持本地磁盘的日志文件占用量...0x01 解决方案 对于我上面的这个问题,之所以有大量的(deleted),未释放文件句柄,还有个背景,就是由于磁盘空间非常有限,临时加了任务,每小时删除12小时前的日志,换句话说,定时任务会自动删除此时...但并不是从根本解决,定时任务还会删除这些,filebeat打开的文件,导致空间。...which consumes disk space Filebeat holds open deleted file descriptions with close_removed filebeat进程磁盘的情况处理...filebeat占用Linux空间未释放的问题解决 filebeat占用文件句柄磁盘

    2K31

    数据库PostrageSQL-磁盘失败

    磁盘失败 一个数据库管理员最重要的磁盘监控任务就是确保磁盘不会写。一个满了的数据磁盘可能不会导致数据的崩溃,但它肯定会让系统变得不可用。...如果保存 WAL 文件的磁盘,会发生数据库服务器致命错误并且可能发生关闭。 如果你不能通过删除一些其他的东西来释放一些磁盘空间,那么你可以通过使用表空间把一些数据库文件移动到其他文件系统上去。...有些文件系统在快的时候性能会急剧恶化,因此不要等到磁盘完全的时候才采取行动。 如果你的系统支持每用户的磁盘份额,那么数据库将自然地受制于用户所处的服务器给他的份额限制。...超过份额的负面影响和完全用光磁盘是完全一样的。

    76030

    一次磁盘的情况处理

    收到系统磁盘告警,查看告警机器,发现data目录已经满了:[root@VM-41-182-Linuxos /data]# df -hFilesystem Size Used Avail Use% Mounted...fs/cgroup/dev/vda1 99G 11G 85G 11% //dev/vdb 296G 6.9G 274G 3% /datatmpfs 1.6G 0 1.6G 0% /run/user/在 Linux...系统中,当一个文件被删除(或者说被 unlink)时,如果还有进程持有该文件的句柄(也就是打开的文件描述符),那么这个文件的磁盘空间并不会立即被释放。...这是因为在 Unix 和 Linux 中,删除一个文件实际上只是减少了文件名到文件内容的链接数量。只有当链接数量减少到零,并且没有任何进程打开该文件时,文件占用的磁盘空间才会被操作系统回收。...这里想说明的1、当磁盘满了df查不出原因的时候,使用du可以进一步分析各个目录的占用情况2、删除的文件句柄并不会立刻释放,当出现大量这种情况的时候,需要重启服务。

    8310

    Linux磁盘空间管理:释放空间、避免硬盘、提高性能

    Linux下常用的文件系统有Ext2、Ext3、Ext4、Btrfs等,其中Btrfs相对比较新,支持快照、检查和修复能力。...在Linux系统下,可以使用logrotate工具定期轮换和清理日志文件。...五、使用du和df命令查看磁盘使用情况 在Linux系统下,可以使用du和df命令查看磁盘使用情况。其中,du命令用于计算文件和目录的磁盘空间使用情况,df命令用于报告文件系统的磁盘空间使用情况。...六、设置Quota配额 使用Quota配额可以限制磁盘空间的使用,避免硬盘的情况发生。在Linux系统下,需要安装quota工具并配置文件系统才能启用配额功能。...七、定期进行磁盘碎片整理 在磁盘使用过程中,文件会被删除或修改,导致磁盘出现碎片。碎片会降低文件读写的效率,影响系统性能。在Linux系统下,可以使用e4defrag工具定期进行磁盘碎片整理。

    1.4K70

    记一次 mysql 磁盘解决过程

    来源:https://testerhome.com/topics/23049 问题: 使用命令发现磁盘使用率为100%了,还剩几十兆。...一系列神操作 备份数据库,删除实例、删除数据库表、重启mysql服务.结果磁盘空间均为释放 怎么办 网上查了很多资源,说要进行磁盘碎片化整理。原因是datafree占据的空间太多啦。...正在这时,有个不好的消息发生了,那张表格给删掉了,但是磁盘空间还是没有释放啊。所以对表进行碎片化整理的路也走不通了,因为表没了。。。.../abc 5、重新启动mysql 发现磁盘空间释放了 service mysql start 磁盘空间终于释放了 下一步数据库还原 1、采用navicate备份工具,进行数据库备份 ?...就形成了碎片; (3)当MySQL对数据进行扫描时,它扫描的对象实际是列表的容量需求上限,也就是数据被写入的区域中处于峰值位置的部分; 清除碎片的优点: 降低访问表时的IO,提高mysql性能,释放表空间降低磁盘空间使用率

    2.2K10
    领券