如何防止数据中心中断?
数据中心运维管理
共 1727字,需浏览 4分钟
· 2023-02-04
虽然有许多技术进步,但中断很常见,且还在增加。Uptime Institute的2022年年度中断分析报告强调,五分之一的组织报告在过去三年中经历了“严重”或“严重”中断,涉及重大财务损失、声誉损害、合规违规,在某些严重情况下,还会造成人员伤亡,这标志着重大中断的发生率略有上升趋势。根据Uptime的2022年数据中心弹性调查,80%的数据中心经理和运营商在过去三年中经历过某种类型的中断,比正常情况略有增加,在70%到80%之间波动。超过60%的数据中心失败导致至少10万美元的总损失,远高于2019年的39%。在同一时期,损失超过100万美元的中断所占比例从11%上升到15%。
数据中心中断的原因
中断的原因各不相同。从网络故障到硬件或软件故障,再到断电、网络攻击和人为错误,导致数据中心中断的原因有很多。
下面来看看服务中断的主要原因,并推荐最佳实践来缓解这些问题:
网络问题:根据Uptime的2022年数据中心弹性调查,在过去三年中,与网络相关的问题已经成为所有IT服务中断事件的最大单一原因——无论严重程度如何。由于越来越多地使用云技术、软件定义架构和混合分布式架构带来的复杂性,导致软件、网络和系统问题导致的中断正在增加。
与电源相关的问题:与电源相关的中断占被归类为严重中断(导致停机和经济损失)的43%。根据Uptime调查,电源事故的最大单一原因是不间断电源(UPS)故障。
人为错误:同一份Uptime调查显示,绝大多数与人为错误相关的中断都涉及忽略或不适当的程序。近40%的组织在过去三年中遭受过由人为错误引起的重大中断。在这些事件中,85%是由于员工未能遵守程序或程序本身存在缺陷。
勒索软件和DDoS:网络攻击也可能是导致中断的主要原因。如今,由勒索软件和DDoS攻击引起的数据泄露很常见,可能会导致业务中断。随着勒索软件变得越来越复杂和普遍,其在大企业的董事会中越来越重要。NTT Security Holdings的一份报告指出,勒索软件的流行正在影响业务连续性,在过去24个月里,勒索软件事件响应业务增长了240%。
防止中断的最佳实践
弹性是数据中心的一个关键属性,每个企业都必须努力通过一系列举措来防止中断。首先,组织必须定期分析数据中心生态系统的每个重要组成部分的弹性,如电源、冷却、连接、服务提供商。数据中心温度与数据中心设备故障有直接关系。因此,监测温度对于防止任何可能的故障或设备关闭变得极其重要。
UPS系统的故障也可能导致中断。由于大多数UPS系统在电源故障之前都没有进行真正的测试,因此对UPS系统的一致远程监控有助于提供实时警报,并在潜在问题导致中断之前向管理员发出警报。
软件故障也可能导致中断和停机。因此,有必要定期更新软件和打补丁。为了确保定期更新补丁,人工智能可用于扫描漏洞,并在需要时进行软件更新或补丁。AI还可用于主动识别与数据中心设备或应用程序性能或安全相关的问题。
通过结合使用主动网络监控和使用自动化将人为错误的可能性降至最低,可以防止与网络相关的中断。网络冗余也是可取的,这意味着如果一个网络出现故障,可以使用不同服务提供商的替代网络。
理想情况下,雇佣第三方服务提供商,可以对弹性进行审计,并提供独立的、无偏见的评估,以理解和对标弹性。选择正确的DR流程还可以帮助快速从中断中恢复。
为了确保免受勒索软件的攻击,企业必须减少用户权限,消除任何终端用户管理员,并使用多因素身份验证(MFA),因为这极大地限制了攻击者横向移动的机会。网络分割可以减少攻击向量,而基于策略隔离的用户端点检测和响应(EDR)解决方案的实现可以帮助防止恶意软件的传播。
评论
偷偷告诉你如何一台电脑开多个微信!
大家好,我是轩辕。前几天在粉丝群里,有人问我是怎么在一台电脑上同时登录两个微信的?正好之前写过一篇文章,分析过原理,分享给没看过的小伙伴学习一下。手机端多开微信估计很多人都知道,像华为、小米等手机系统都对此做了支持,不过在运行Windows系统的电脑上怎么启动两个微信呢?其实很简单,你只需要写一个批
编程技术宇宙
0
测试新人,如何快速上手一个陌生的系统!
大家好,我是狂师!作为刚入行不久的测试新人,面对一个陌生的系统时,可能会感到有些手足无措。面对一个全新的系统系统,如何快速上手并展开有效的测试工作是一个重要的挑战。本文将探讨测试新人如何通过一系列步骤和策略,快速熟悉并掌握新系统的测试要点,从而提高测试效率和质量。本文旨在为测试新手提供一份指导,帮助
测试开发技术
0
光纤详解:光纤跳线如何分类,多向单模转换?
本文来自“光纤详解:光纤跳线如何分类,多向单模转换?”,光纤跳线作为光网络布线最基础的元件之一,被广泛应用于光纤链路的搭建中。如今,光纤制造商根据应用场景的不同推出众多类型的光纤跳线,如MPO/LC/SC/FC/ST光纤跳线,单工/双工光纤跳线,单模/多模光纤跳线等,它们之间各有特色,且不可替代。本
架构师技术联盟
0
5000w+ 的大表如何拆?亿级别大表拆分实战复盘
前言笔者是在两年前接手公司的财务系统的开发和维护工作。在系统移交的初期,笔者和团队就发现,系统内有一张5000W+的大表。跟踪代码发现,该表是用于存储资金流水的表格,关联着众多功能点,同时也有众多的下游系统在使用这张表的数据。进一步的观察发现,这张表还在以每月600W+的数据持续增长,也就是说,不超
码农编程进阶笔记
0
如何做到无感刷新Token?
来源:juejin.cn/post/7316797749517631515为什么需要无感刷新Token?自动刷新token前端token续约疑问及思考图片为什么需要无感刷新Token?「最近浏览到一个文章里面的提问,是这样的:」当我在系统页面上做业务操作的时候会出现突然闪退的情况,然后跳转到登录页面
Java专栏
2
AI数据中心网络架构需求:400/800G光模块
随着AI技术和相关应用的不断发展,大模型、大数据和AI计算能力在AI发展中的重要性日益凸显。大模型和数据集构成AI研究的软件基础,而AI算力是关键的基础设施。在本文中,我们将探讨AI发展对数据中心网络架构的影响。下载链接:AI数据中心网络架构需求:400/800G光模块Fat-Tree数据中心网络架
架构师技术联盟
0
【性能监控】如何有效监测网页静态资源大小?
前言作为前端人员肯定经常遇到这样的场景:需求刚上线,产品拿着手机来找你,为什么页面打开这么慢呀,心想自己开发的时候也有注意性能问题呀,不可能会这么夸张。那没办法只能排查下是哪一块影响了页面的整体性能,打开浏览器控制台一看,页面上的这些配图每张都非常大,心想这些配图都这么大,页面怎么快,那么我们有没有
高级前端进阶
0
如何减少网页卡顿
大厂技术 高级前端 Node进阶点击上方 程序员成长指北,关注公众号回复1,加入高级Node交流群前言经常听人说,“不要阻塞主线程”,或者 “减少长耗时 ",该如何做呢?聊网站性能的文章有很多,通常为了提高 js 性能,避不开这两点:不要阻塞主线
程序员成长指北
0