民生银行 IT运维故障管理 可视化案例
共 3830字,需浏览 8分钟
·
2021-08-21 02:15
一、前言
民生银行 IT 运维工作经历了多年实践,已经建设了CMDB、IT运维管理系统(流程平台)、集中监控系统、交易性能监控系统、自动化运维系统、日志管理平台等管理工具,并在实际工作中不断深入的优化,在近年还打造了运维大数据平台,用以支撑 IT 运维管理工作。
在日常工作中,监(各类监控)、管(流程)、控(自动化)和CMDB系统均建立了映射关系,用以打通各系统的数据消费场景。
但实际工作中依然面临着工具分散,依靠运维人员经验和频繁切换各专业分析工具,以实现故障定位、影响分析等操作,运维数据消费效率存在进步空间。
二、建设思路与成果
基于上述背景,民生银行尝试借助架构管理可视化工具,将配置数据(CMDB)、监控数据(集中监控告警、交易性能监控)、自动化运维管理工具、IT运维管理系统的变更数据整合到 IT 运维架构图上,打造统一的运维数据消费场景 - IT运维架构管理可视化平台,行内称之为云图系统。
在系统建设之初,我们先定义了四类运维数据消费场景,如下图所示:
下面,我们先对这四个比较具备代表性的场景进行说明:
1.日常监控
作为运维人员,每个人都需要对各自负责系统的运行情况了如指掌。系统本身的各项性能指标可以通过对数据库、中间件、操作系统和网络流量分析等监控手段实时主动监测,系统的交易性能情况则需要通过交易性能监控系统进行实时的诊断输出和告警。
一线值班人员需要打开不同工具的监控窗口,实时监测系统的告警和异常指标,这些窗口占用了大量的终端资源;
二线运维人员接到异常告警后,也需要打开各个监控平台进行故障判断和问题定位,往往在登陆和跳转的过程中浪费一定的时间和精力,无法有效满足“10分钟定位故障、10分钟处置恢复”的“双十”目标。
通过云图系统对上述各专业监控工具的数据实现高效整合,目前已经能够以应用为中心,在统一的页面上实现上述多种运行状态数据的呈现,实时同步的显示告警数据和性能数据,并与特定场景的可视化相结合,直观高效,一目了然。
举例:图1是我行网银互联系统发往工行、农行、中行、建行、交行、招行等14家对手行的交易量、响应时间、响应率和成功率一览图,当交易异常告警发生时,告警会实时挂载在应用系统图标上。
图1:网银互联至对手机构交易情况监控
2.排障定位
在日常IT运维工作中,有时会面对一些较复杂的故障定位场景,比如大量系统几乎同时涌现高级别告警,这些系统之间依托于各类网络,存在着支撑和依赖关系,而每个系统本身也被复杂的系统架构所承载。
这种情况下,如何在有限的时间内定位故障并快速恢复业务,是运维人员面临的低频但高风险的疑难问题。
对比传统排障思路,运维人员需要综合分析这些告警,确定可能的根因。
一般思路是各应用系统负责人分别找数据库、操作系统、中间件、网络等团队确认是否是本系统导致的。
如果不是,则需要通过事前绘制的上下游系统关系图梳理可能的根因节点,再查询相应疑似故障根因系统的架构内是否存在故障,从而进行进一步处理。
由于相关工作既存在跨部门沟通,又需要强大的视图化逻辑思维能力,对运维人员要求极高。
而通过云图系统,我们可以先通过对应用墙的整体查看(如图2所示),分析各系统告警的分布情况,之后依照经验初步判断交易关键节点,点击钻取进入应用关系全景图。
图2:应用墙展示
在图中可以查看到基于时序的告警、性能指标曲线、近期变更记录,从而进一步缩小需要深入判断的故障域;再基于疑似的故障根因节点钻取到系统架构图和网络拓扑图,同样对架构图中对象的告警、变更、性能数据进行分析,进一步定位故障源头(如图3所示)。
图3:应用交互关系展示
最后,将自动化操作也集成到相应的架构图中,包括一键巡检等操作,缩短大脑思考和逐一登陆各系统消耗的宝贵时间,完成处理后再次对比相应架构图中的实时监控数据,确认故障处理效果。
排障结束后,还可借助应用画像功能(如下图4所示),对故障的形成原因及解决方法进行复盘,制定预案,为可能的故障二次发生或次生风险提供预防措施和紧急处理指导意见。
图4:应用画像展示
3.变更影响分析
在日常的变更管理工作中,分析变更影响,进行变更过程评审是变更管理工作的重点。
就变更影响分析而言,如果CMDB数据中的关系数据不够完善,影响范围的确认就变得异常艰辛,需要投入更多的经验判断、多方沟通以及大量思考。
依托于云图系统,变更影响分析的工作得到了系统化改善。举例来说,当需要对存储系统进行维护时,只需要搜索该存储设备的任意配置项属性,便可知道哪些系统与该存储存在关联关系,同时还可以链接到相应的系统架构图,从而进一步了解深层次的影响范围(如下图5所示)
图5:存储与应用影响关系展示
4.知识共享
知识共享能够提升人与人之间的协作和分享能力,发挥团队成员的主动性和创造性。举例来说,基于配置数据的架构图,结合相关的监控信息和变更记录,可以由专业二线人员进行场景组装,并将其分享给ECC一线值班经理。
值班经理一方面可以通过更易理解的架构图,熟悉所需管理的各类系统情况,还能够在故障定位时,更易缩小故障域根因范围,进而向专业二线传递信息,提升整体排障效率。
此外,日常运维中演示汇报是知识共享的场景之一,架构图作为IT管理领域存在共识的表现形式,本身就具备演示汇报的基础能力。
不论是对新员工培训或与运维备份岗的日常沟通过程中,还是在向业务单位介绍IT运维日常工作,又或者是描述一些重要的系统建设成果。
通过该系统的演示模式都可以有效的提升沟通效率,使整个组织形成知识积累、统一认知、快速分享和实时更新的机制。
图6:演示汇报大屏模式
三、未来展望
1.可视化AIOps
近年来AIOps的理念逐渐深入人心,Gartner也在监管控运维架构的基础上补充了AIOps的核心节点。作为AIOps,从各类数据源汇总成为大数据库,在这个基础上进行计算、分析、融入算法、增加机器学习能力,并最终以可视化供给数据消费是已知的发展路径。
民生银行运维大数据平台已经建设完成,目前也已开展与清华大学智能运维实验室的合作,将其机器学习和算法研究成果投入到生产环境进行积累和学习。
下一步云图系统将对接智能运维系统的异常监测分析数据,实现AiOps与IT运维架构可视化故障定位的展示能力。
举例来说,在架构图中呈现的事件信息,除了经历了过滤、压缩、关联、丰富等操作,还会补充单值标异常检测系统在性能数据中挖掘的系统异常。
比如业务系统交易响应时长原本定义在100ms生成告警事件,而在异常检测系统上线后,机器学习会基于数据特征,在低峰期,即便其响应时长只有50ms,也可以发现系统异常,从而进一步补充事件提醒,结合云图系统,实现故障预警的可视化,进一步提高运维质量。
图7:Gartner监管控运维架构
2.自动化场景可视化
下一步,系统将实现应用发布及灾备切换自动化的可视化能力:
应用发布和灾备切换需要管理的各种资源关系复杂,应用系统之间依存性高,自动化运维系统的流程管理可以清晰定义以上各种关系,有力的保障了灾备系统的服务质量、提高应对突发事件的能力。
与此同时,各部门同事及领导可以通过大屏幕,一目了然的了解流程执行情况,使ECC成为统一的“作战指挥中心”。
3.深入的场景化建设
基于架构图和各类数据的集成,架构管理可视化工具已经成为了最贴近运维人员的综合情势研判工具。
基于此,系统可以做进一步深化,站在运维人员不同的工作场景进行功能深化和数据封装。
举例而言,故障在很多情况下源于变更,在系统变更前需要对变更进行评审,场景化能力可以在评审前,将变更前后需要关注的系统架构、应用交易性能指标、系统和网络层面负载指标,以及各应用的日志新产生数量,均封装在一个页面上。
当变更日的次日清晨,应用运维人员可以自动收到邮件通知,将上述信息进行汇总,点击后即可打开封装好上述数据和图形的场景化页面,从而对变更后的状态一目了然,一旦出现问题也可以查看问题表征,并迅速定位上下游影响。
四、总结
“心灵没有意象就永远不能思考”,亚里士多德的这句名言,映射到IT运维管理中,架构图便是心灵意象的一种可视化呈现。
对于IT架构图的规范化梳理,一方面在IT治理层面保障了运维管理工作可持续的优化;
另一方面随着架构可视化管理的深入,以IT架构图贯穿运维工作思考流的习惯正在逐渐形成。
未来,将配置数据、监控数据、日志数据、自动化工具、流程工具,基于架构图进行有机整合,激发了运维人员对运维所需工具的新需求,从而形成更加高效的数据消费场景。
伴随着工具深入使用和持续优化,相应的需求仍在不断涌现,未来会根据进展与大家分享。
- END -
推荐阅读 31天拿下K8s含金量最高的CKA+CKS证书! 这些 K8S 日常故障处理集锦,运维请收藏~ 猪八戒网 CI/CD 最佳实践之路 从零开始搭建创业公司DevOps技术栈 Jenkins Pipeline 流水线部署 Kubernetes 应用 快、狠、准!系统有效的排查运维类故障 Nginx 常用配置清单 最强整理!常用正则表达式速查手册 12年资深运维老司机的成长感悟 60道常见的 Kubernetes 面试题总结
点亮,服务器三年不宕机