能解决 80% 故障的排查思路
往期热门文章: 1、40 个 SpringBoot 常用注解:让生产力爆表! 2、3种常见的数据脱敏方案 3、BigDecimal使用不当,造成P0事故! 4、改造BeanUtils,优雅实现List数据拷贝 5、SpringBoot 启动时自动执行代码的几种方式,还有谁不会??
服务整体性能下降或异常,可以考虑重启服务;
应用做过变更,可以考虑是否需要回切变更;
资源不足,可以考虑应急扩容;
应用性能问题,可以考虑调整应用参数、日志参数;
数据库繁忙,可以考虑通过数据库快照分析,优化SQL;
应用功能设计有误,可以考虑紧急关闭功能菜单;
还有很多……
召集相关人员
描述故障现状
说明正常应用逻辑流程
陈述变更
排查进展,展示信息
领导决策
交易性能数据:平均交易耗时、系统内部模块交易耗时(IVR交易耗时、接口总线交易耗时)、关联系统交易耗时(核心交易耗时、工单系统交易耗时等)
重要交易指标数据:交易量、IVR交易量、话务量、座席通话率、核心交易笔数、工单等系统交易量
交易异常情况数据:交易成功率、失败率、错误码最多交易
按服务器分析交易数据:按server统计各服务交易处理笔数,交易总耗时
应急方案缺乏持续维护,缺乏演练,信息不及时、不准确;
应急方案过于追求大而全,导致不利于阅读与使用;
应急方案形式大于实际使用效果,方案针对性不强;
只关注应急方案的内容,但没有关注运维人员对方案的理解;
知道应用系统这个是干什么的,基本的业务是什么;
知道应用架构部署、上下游系统逻辑关系;
知道应用下的服务的作用、端口、服务级的应急处理,日志等数据信息如何找到并简单定位;
知道应用系统重要的时间点及任务,比如开业、停业、换日、定时任务的时间点以及如何判断这些任务是否正确;
知道最重要的几支交易的流程;
知道常见数据库表结构,并能使用。
最近热文阅读:
1、40 个 SpringBoot 常用注解:让生产力爆表! 2、3种常见的数据脱敏方案 3、BigDecimal使用不当,造成P0事故! 4、改造BeanUtils,优雅实现List数据拷贝 5、让人上瘾的新一代开发神器,彻底告别Controller、Service、Dao等方法 6、SpringBoot 启动时自动执行代码的几种方式,还有谁不会?? 7、延时消息常见实现方案 8、劲爆!Java 通用泛型要来了。。 9、如何写出让同事吐血的代码? 10、遭弃用的 Docker Desktop 放大招!宣布支持 Linux 关注公众号,你想要的Java都在这里
评论