数据中心服务器智能故障诊断系统
本文来自“数据中心服务器智能故障诊断系统”,从云和数据中心的发展趋势、产业互联网时代的智能化运营需求和TIFDS故障诊断系统进行分析。
随着云技术的普及,尤其是“新基建”,“数字化转型”等需求驱动着数字经济的高速发展,服务器在CDC数据中心的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度也越来越大,而传统的海量服务器数据中心的故障运营也面临着更大的挑战和更高昂的成本,从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修复故障和恢复业务运行的要求。
1. 机器故障后,重要的日志信息不全,无法自动准确进行故障部件定位;
2. 故障诊断效能较低,服务器出现问题后主要基于人工分析和经验判断结果,自动化与智能化程度不高。
3. 成本高时效性差,人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR),影响业务的快速恢复。
4. 由于诊断结果的明确化率低,引起二次故障维修比例较高,导致额外数据迁移成本和业务影响。
TIFDS (Tencent&Inspur Fault Diagnosis System) 故障诊断系统是服务器健康监管技术及故障预警诊断技术的总称,旨在实现运维工作任务由人工离线分析向自动智能在线识别的方向发展,建立一套以带外BMC为中心的自动化故障诊断系统,提升服务器故障预警能力、故障诊断明确率、以及停机维护效率,减少非计划停机时间,提升服务器全生命周期的健壮的RAS特性(可靠性,可用性及可维护性)。
该系统依托腾讯超过100万台服务器的维护数据,深度定制了服务器事件日志,通过AI技术对服务器运营数据进行实时的分析,从而实现了对CPU,内存、硬盘,PCIe等设备的自动化预警,将服务器故障诊断自动明确化率提升至95%以上。
TIFDS可以覆盖由于IERR(Internal Error)和非IERR造成的系统宕机故障,并精准地定位出故障部件,如CPU,内存,主板,PCIe外插卡,存储等设备。服务器运行过程中一旦发生异常,TIFDS系统会立刻响应并准确诊断出故障的部件,将故障问题原因、故障部件具体位置、部件型号信息、维修建议等信息及时上报至运维管理系统。运维管理系统可自动生成维修工单,运维人员根据维修建议,需要更换部件信息,快捷更换故障部件或者依据TIFDS指导排除故障,迅速使机器恢复健康状态。传统的以小时计算维修时间级别压缩至分钟级别。极大提升运维效率,实现云业务快速恢复。
TIFDS系统通过BMC实时监控服务器系统上遍布各处的电压、电流、温度传感器信息,实时监控电源、风扇、以及各部件的工作状态和工作负荷情况;根据可在线更新的告警阈值、预警阈值和故障判定规则,可实现对服务器中存在风险的位置进行故障预警、故障告警或故障判定,并时刻上报智能运维系统。
TIFDS可以对服务器内所有部件进行全生命周期的寿命和运行状态进行跟踪,通过机器学习的算法对高风险的部件提前进行预警,降低服务器在高负荷运行状态下的突然失效。另外对已发生故障的部件,TIFDS可以按部件类别做出相应的隔离措施处理,避免单一非必要部件故障影响整机系统的运行。
TIFDS是腾讯云运维监控系统中的重要组成部分,是服务器带外数据的主要来源,在内存,CPU,PCIe等部件的故障监控,失效预测,大规模告警上有极大贡献。通过定制化的日志自动适配腾讯云备件系统,给腾讯云健康管理系统增加参考维度,并基于带内带外日志开发出线上诊断系统,深度的定制化模式和简单易用的维护工具使整个运维系统能更加智能,高效。
ARM的体系结构与编程.pdf
ARM架构参考手册.pdf
ARM架构参考手册ARM V9.pdf
CPU之战:ARM vs Intel.pdf
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。
获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。