在上一版本App临发版之前,QA和PM同学同时报了一个严重的Bug:App退出之后会自动重新启动,也就是用户关不了App。开发者梦寐以求的应用常驻就这么被莫名其妙的实现了!当然这是句玩笑,估计用户会直接了当卸载才是真的。
Therequest you have made requires authentication. (HTTP 401) (Request-ID:req-70bb9d8c-a1ba-47e3-8dc4-ef2e63e269f4)
故障概述 某天晚上,我方收到行方请求协助分析某数据库两节点RAC数据库问题,问题描述如下: 该 数据库版本为11.2.0.3,该版本中ASM内存管理机制有所变化,导致ASM实例对共享内存的需求加大,由于该数据库ASM实例共享内存设置过小,导致ASM实例间歇性出现ORA-4031共享池无法分配连续内存空间。为解决该问题,行方决定调整ASM实例内存参数,而在首先修改节点2 ASM内存参数并重启节点2 grid集群过程中,发现节点1 grid集群状态异常,并且在重启节点2集群后,查看节点1 grid集群状态依然报
本文作者系肖遥(花名),原甲骨文技术支持工程师 ,专注于Oracle RAC领域。个人主页:
转载来源:https://www.cnblogs.com/HOsystem/p/15358404.html
20 日大早上还在睡眠中,就被电话吵醒了,监控值班同事打电话告诉有一台生产数据库连接失败,出现紧急事件,今天刚好我值班,便开始了今日的远程工作,迷迷糊糊、朦朦胧胧地打开电脑便去登陆环境,可能当时没睡醒脑子还不好使吧,当登陆上去后发现数据库实例确实宕机了,庆幸的是还有另一个节点可以正常访问,便不慌不忙的在 SQLPLUS 命令行敲了启动命令,便出现了如下的画面。。。
为了及时共享行业案例,通告共性问题,达成知识共享和提前预防,我们整理和编辑了《云和恩墨技术通讯》(8月刊),通过对过去一段时间的知识回顾和故障归纳,以期提供有价值的信息供大家参考。 同时,我们也希望能够将热点事件、新的产品特性及其他有价值的信息聚集起来,为您提供具有前瞻性的支持信息,保持对于当前最新的数据库新闻和事件的了解,其中包括重要数据库产品发布、警报、更新、新版本、补丁等。
本文主要讲述重庆某项目生产集群扩容项目问题总结及复盘。其中部分问题之前有写过相关文档,可参考我之前写的文章《CDH集群安装YARN无法正常启动及解决办法》、《HDFS运行Balancer失败及问题解决办法》、《如何为CDH集群配置机架感知》
一、端口转发。 如果在一个主机里面,安装了两个redis实例,可以在项目里面配置IP端口,用iptables转发。 iptables -t nat -A PREROUTING -p tcp --dpo
刚进公司那段时间,在敏捷项目制的执行下,需求有条不紊地进行着。某个周末,业务系统反馈群内,操作人员反馈系统不可用,我们急忙寻求运维的帮助,将系统重启并恢复使用。同时排查相关log,检查异常点,但是根据log并没有跟踪出结果。于是想到是否有OOM的dump文件生成,询问运维后,被告知并没有生成。咨询之前的应用负责人,以前也有类似系统不可用情况,但只是偶现。没有办法,根据应用日志查不出结果,只有下次复现时导出dump彻查了。又过去一段时间,故障反馈群里又是一样的问题,于是赶忙麻烦运维把dump生成,然后重启了应用,同时离线对dump进行了分析。
pod 处于以上情况,可通过kubectl describe pod -n<namepsaces> <podname> 查看对应event 展示信息,基于对应报错信息进行解决;
所以,你想访问一个什么样的主机名,就需要把这个主机名和它对应的 ip 地址 配置在/etc/hosts 文件中。
上周四下午,告警系统突然提示某位大客户的作业频繁发生崩溃和重启,现象是作业运行起来 2 分钟左右,JobManager 就发现有 TaskManager 心跳失联,随即出现作业崩溃重启,严重影响线上业务的运行。
今天在LAMP环境使用WordPress搭建博客,在进行数据库的相关配置时遇到了mysql.sock寻址错误的问题,错误提示:“ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2)”意思是通过本地/var/lib/mysql/mysql.sock文件无法连接到MySQL服务。为了解决该问题,上网查询资料,所有回答都大同小异,最终自己总结了两种解决办法。
问题描述: 此前测试服务器负载偏高,其他各项性能指标都正常,未找到原因。提阿里云工单回复正常。 当日CPU频繁达到100%,负载几十,造成服务器瘫痪。
1. 现象 公司一套MySQL数据库的error日志被撑得很大 查看后发现大量报错 Incorrect information in file: './sys/x$session.frm' 这时查看sys文件夹,发现里面的文件大小都为0 2. 原因查找 sys 数据库是MySQL 5.7后引入的一个系统数据库 用于分析系统性能 具体产生报错的原因未找到 这时想办法修复 3. 问题解决 这里采用还原其他MySQL中sys数据库解决 3.1 备份sys库 找个正常的sys数据库进行备份 mysqldu
————————–2021.3.9更新—————————————- 有几位读者私聊我遇到了如下问题
本文描述了一次CDH集群中,Hive锁表导致集群元数据MySQL的Hive MetaStore锁表,从而引起CM服务中断并且无法重启的异常分析。
我们线上有一个服务,姑且称之为A服务,它会请求其他部门的B服务获取必要的数据,因此这个链路是关键链路,不容有失。但因为跨部门,我们两个团队的技术栈不同,使用的RPC框架也不同,通信协议的格式也不同,且不是通用协议,双方的内部库也不一样。因此对方部门提供了一个SDK,让我们作为调用B服务的client集成到A服务中。该SDK除了协议的序列化和反序列化的功能外,也包含寻址以及负载均衡的逻辑。
2022年10月19日,晚上10点半,突然收到许多用户的反馈说小程序打不开了,打开一看果然,小程序一直处于转圈圈状态。
版权声明:本文为博主原创文章,未经博主允许不得转载。python版本为python3,实例都是经过实际验证。 https://blog.csdn.net/jinxiaonian11/article/details/91391696
有同事报客户端请求某核心服务出现大量connection reset by peer。线上故障,赶紧高优定位处理。
本人CainGao,在这里深深的为之前的一篇文章<记一次海外数据进行中转传输到Kafka集群的过程>的错误进行道歉。在之前那期的文章中,本人说实现producer节点的数据通过nginx节点发送到Kafka集群中是错误的。
题记:在RAC数据库的故障当中,节点重启的现象很常见,在这种问题的处理当中,有一定的规律性。为了更好的说明这个问题的处理过程,保证出现该类问题的时候,能够有序的进行处理,特编写此文档。 作者介绍 曾天水(水哥) , oracle认证大师,在数据库领域钻研了10多年,擅长数据库优化,系统架构方案设计,疑难杂症问题解决等,并在开源领域也有广泛的涉猎。 问题现象描述 此问题的现象比较明显,也就是数据库自动重启,或者是节点自动重启,客户端在数据库重启期间无法连接数据库,导致业务断连的现象。这种情况如果出现在业务高
程序员最怕的是异常告警,特别是产品反馈有大范围的用户投诉,身上焦虑激素分泌必然瞬间暴涨。稍不留神就会眉毛胡子一把抓,无法从全局角度分析告警的来龙去脉。而本次分享正是针对故障域这个话题展示一系列的分析,带你掌握问题排查的思路。
作者所在的公司核心业务是做政府信息化软件的,就是为政府部门开发信息化系统。其中有一款信息化软件是客户每天需要使用的,并且他们面向的客户就是老百姓。
题记:在RAC数据库的故障当中,节点重启的现象很常见,在这种问题的处理当中,有一定的规律性。为了更好的说明这个问题的处理过程,保证出现该类问题的时候,能够有序的进行处理,特编写此文档。
本篇文章主要介绍在Cloudera Manager 界面中Impala 查询详细界面显示无法检索此查询的详细信息问题的原因和解决办法
本文章将以 QA 方式记录在使用 TKE 产品过程中的可能会遇到的常见问题解答,将不定期更新。
今天在测试环境遇到一个很有意思的问题,我们在测试一款分布式数据库,这款分布式数据库底层是基于postgresql做的,现象大致是这样的,我们在重启数据库集群后发现某台机器的数据节点启动失败,然后去那台机器上发现进程确实没有启动。然后看了下运行日志,定位到了启动失败的原因,是内存不够用了,查了下该节点上还运行着其他数据库,由于其他数据库也占了一部分内存,造成该节点数据库由于内存不足启动失败。
Redis中的主从复制,也就是Master-Slave模型,其实现相对比较简单,一般使用在多个Redis实例间的数据同步以及Redis集群中用的比较多。
大家好,本篇是个人的第 2 篇文章。是关于在之前项目中,k8s 线上集群中 Node 节点状态变成 NotReady 状态,导致整个 Node 节点中容器停止服务后的问题排查。
每月关注:55 页 干货,汇总一个月数据库行业热点事件、新的产品特性,包括重要数据库产品发布、警报、更新、新版本、补丁等。
lz_rec_push_kafka_consume 该项目通过kafka与算法进行交互,通过push推荐平台(lz_rec_push_platform)预生成消息体。
首先通过我们内部搭建的日志平台发现我们线上环境一个java应用有大量的http接口请求超时,登录linux服务器查看网络环境没有问题,判断是应用自身运行异常,重启应用后发现异常还在,开始查找问题。
疫情停倮以来,腾讯课堂助力全国数百万老师和数千万学生在线教学、听课。已有3000多个线下教育机构申请入驻腾讯课堂。这背后,离不开腾讯课堂可支持百万人同时在线上课、网络延时低至百毫秒级、1080P直播高清视频、秒级扩容服务海量用户等优势。
如果你使用过k8s的话,当然会了解pod的基本使用,但是为了更好的应用,你需要深入了解pod的配置、调度、升级和扩缩容等。本文将会更进一步的介绍pod。
HDFS的元数据信息存储在NameNode数据目录(由配置项“dfs.namenode.name.dir”指定)中的FsImage文件中。standby NameNode会周期将已有的FsImage和JournalNode中存储的Editlog合并生成新的FsImage,然后推送到active NameNode的数据目录。这个周期由HDFS的配置项“dfs.namenode.checkpoint.period”指定,默认为3600秒,即1个小时。如果active NameNode数据目录的FsImage没有更新,则说明HDFS元数据合并功能异常,需要修复
ORA-03113: end-of-file on communication channel
线上某服务一直运行很稳定,最近突然就cpu百分百,rpc远程调用全部失败,并走了mock逻辑。重启后,一个小时后问题又重现。于是dump线程栈信息,但不仔细看也看不出什么问题。于是就有了一番排查历程。
朋友小明的线上数据库突发严重告警,业务方反馈写入数据一直堵住,很多锁超时回滚了,不知道怎么回事,就找到我了。
近来在做的一个项目,利用redis实现消息队列,在发布端用lpush,将数据写入到队列中,在订阅端用rpop方法依次读出每条数据并处理,需要在windows服务中循环读取redis里的数据并做进一步处理。
想要部署属于自己的幻兽帕鲁服务器(Dedicated Server),您首先需要拥有一台服务器,服务器是幻兽帕鲁运行的基础。部署完成后,您和您的朋友便可以登入专属的游戏服进行体验。使用云服务器搭建幻兽帕鲁服务器,便可以让您与您的朋友在一个相对独立且私密的空间中进行游戏,确保获得更加畅快的游戏体验。
腾讯云服务器ping不通什么原因?ping不通公网IP地址还是域名?新手站长从云服务器公网IP、安全组、Linux系统和Windows操作系统多方面来详细说明腾讯云服务器ping不通的解决方法:
原文链接:http://www.enmotech.com/web/detail/1/588/1.html
1) 日志文件是重要的系统信息文件,其中记录了许多重要的系统事件,包括用户的登录信息、系统的启动信息、系统的安全信息、邮件相关信息、各种服务相关信息等。
Spring Cloud Bus是Spring Cloud体系内的消息总线,支持RabbitMQ和Kafka两种消息中间件。所谓消息总线,简单理解就是一个消息中心,众多微服务实例都可以连接到总线上,实例可以往消息中心发送或接收信息(通过监听)。例如:实例A发送一条消息到总线上,总线上的实例B可以接收到信息(实例B订阅了实例A),消息总线充当一个中间者的角色,使得实例A和实例B解耦,如下图所示。
实际工作中用到Zookeeper集群的地方很多, 也碰到过各种各样的问题, 在这里作个收集整理, 后续会一直补充; 其中很多问题的原因, 解决方案都是google而来, 这里只是作次搬运工; 其实很多问题都跟配置有关, 只怪自己没好好读文档; 问题列表: 1. 一台 zk 节点重启后始终无法加入到集群中, 无法对外提供服务 2. zk的log和snapshot占用大量空间 3. 某台客户端上有的进程可以连接到zk, 有的无法连接 4. 一台zk服务器无法对外提供服务,报错"Have smaller
今天下午,线上阿里云RDS的本地只读从库宕机了,还好,这个个服务器上的数据库实例只是提供了一部分的读需求,很快就复原了,但是上面所有的数据库实例都down掉了,启动实例并保证主从复制关系迫在眉睫。这个过程中发现有一个主从复制的问题值得研究一下,虽然最后我解决了,但是具体的原因没有找到,还请大家帮忙看看,也算是集思广益了,如果某一天找到原因了,再回来更新一下。
领取专属 10元无门槛券
手把手带您无忧上云