稳定节能,春节期间京东云数据中心三级运维保障
在春节来临前夕, 京东云数据中心运维团队 就提前启动了春节运维保障措施及预案,落地了一套先进的、可靠的智能化基础设施运维管理方案。
从人员部署到资源池储备,从现场的整体工作协调推进到各团队的保障预案和应急措施的输出,从基础设施的巡检到报告输出以及落地和验收等各方面,京东云各项保障工作规范均严格遵循大促活动保障预案要求来执行,确保数据中心在春节期间保持稳定运行。
京东云工程师在数据中心值守
01
三级运维保障制度
数据中心在极端条件下平稳运行
京东云在保障数据中心制冷与供配电等基础设施系统安全可控的基础上,对遍布数据中心的传感器7x24小时不间断采集来的空气、水、供冷设备、供配电设备及照明等系统数据进行价值挖掘,通过将 AI技术应用在能效管理和风险预测管理上,给出预测性维护指导,防患于未然。
此外,京东云还制定了三级运维保障制度,确保在各种意外条件下数据中心仍可稳定运行。
第一级保障
首道屏障
数据中心的一线值守人员现场巡检和故障应急处理,请求时间不多于5分钟。
第二级保障
双重保险
数据中心本地家中值岗工程师与现场值守人员同步,实时掌握数据中心设备的运行情况,如遇故障,30分钟内抵达现场处理。
第三级保障
远程监控
运维工程师借助京东自研SMARTIDC系统,可以实现远程的数据监控和运维状态管理,发现问题后远程协助现场人员快速排障。
02
强化故障预演与预案准备
将数据中心保障落到实处
-
人员管理方面 做好“春节”假期排班安排,自建机房除安排7*24小时值班外,京东DC运维团队建立三级责任人制度,落实后备支持人员;
-
设施保障方面 制订“春节”节日保障计划,关键设备厂商(UPS\HVDC\柴发\OMD\液冷)重保期间安排厂家专业工程师现场值守;并检查三级监控系统和故障定位系统的运行状态,确保春节远程监控系统的正常运行;
-
环境和安全保障方面 做好“春节”之前各场地的安全检查;针对场地各种易燃易爆易泄露隐患做全面检查;
-
其他安全措施和要求 针对可能发生的故障,运维人员做了详细的故障分析,并制定了相应EOP及演练;做好和合作伙伴的沟通工作,实现协作的有效性和及时性;
工作人员在进行运维保障备品备件盘点核查
03
新技术持续改进运维效率
让数据中心稳定且绿色低碳
京东数据中心的设施运维管理,有一个非常重要的目标,那就是要”建立一套持续改进的机制“,保障数据中心运行效率不断提高、运行成本不断降低。
京东云运维团队开发的机房故障定位功能模块,通过逻辑树和专家系统等算法,实现故障过滤、故障筛选及故障定位功能,大幅度减少现场工程师的故障判断时长,使京东廊坊和宿迁自建数据中心主要EOP跑位时间缩短到7分钟以内,大幅度提高数据中心可用性。
在京东云华东、华北数据中心,运用能源回收及大规模分布式光伏发电系统,构建清洁低碳安全高效的能源体系。以京东云华北(廊坊)数据中心为例,这套系统每年可为京东云华北(廊坊)数据中心节省采暖费用100万元以上,减少碳排放超2000吨。
京东云运维人员在对服务器设备进行巡检
从大年三十至今,京东云数据中心运维工程师24小时坚守在运维一线,并每隔2小时进行一轮设备巡检,确保服务器正常运转,以及控制机房内适宜的温度和湿度,保障其上运行的服务正常运转,无卡顿、无迟缓。
正是坚守在“大后方”的运维工程师们,为数据中心提供了坚如磐石的技术保障。在他们的支持下,海量订单顺利生产交付,包裹及时送达顾客手中,业务系统平稳运行,让大家能过一个安心的春节。
来源:京东云