G行数据中心综合管控平台探索与实践数据中心运维管理共 5168字,需浏览 11分钟 ·2024-04-14 21:09 引言 数据中心是银行IT系统运行的核心场所,除了数据中心风火水电等基础设施管理之外,数据中心行为管理对于系统平稳有序运行也同样重要,包括:准确识别访问人员的身份;提升访问人员的进出效率;及时知晓访问人员所在区域;合规进行设备上下架操作和机房进出;及时发现违规行为,准确判断、快速处置。为此,G行基于物联网技术建设了数据中心综合管控平台(本文后续统称平台),主要包括:总行机房统一访问电子化登记、数据中心物理访问安全的基础监控、基于RFID标签的设备管理等功能。下面具体介绍该平台技术架构与管理实践。 平台功能架构与技术特点 平台功能架构介绍: 图1 平台功能架构介绍 平台采用分层架构,总共分四层,包括:适配层、基础层、业务层和展示层。 适配层是硬件接入适配层。该层屏蔽同种类功能硬件的底层差异,进行统一适配,对上层提供该类硬件对业务的统一接口服务。 基础层是平台的基础设施层,提供底层的支持和服务。包括基础数据建模、统一告警等功能,主要目的是提供可靠的基础设施支持。 展示层是用户界面的呈现层,负责接收用户的请求并向用户展示数据和信息。 业务层是平台的核心逻辑处理层,负责处理各种业务逻辑和业务规则。包括数据处理、业务流程控制、业务规则验证等。 物联网设备介绍: 为了实现机房内访客实时位置信息、访客行为、设备变动等监控感知,平台将RFID技术引入机房监控领域尝试新型应用,充分发挥物联网设备主动监控能力为平台提供必要的信息与反馈,从而协助平台实现业务预期。 图2 物联网设备应用于机房业务探测 各类标签是平台设备管理的技术基础。可被进出门定位设备感知,U位标签主要用于部分生产机房的上下架探测感知。 上下架定位设备是用于配合U位标签主动探测贴签设备上架、下架动作的感知,同时它将记录标签所对应机架的具体U数,周期性位置信息自动更新。 进出门定位设备是用于配合RFID标签主动探测贴签设备出门,并将出门设备信息实时传往后台。 人员定位设备是用于配合定位卡主动探测人员所在位置的感知设备。当人员佩戴卡片处于定位范围内,定位设备将人员所在位置实时传往后台。 平台的关键技术点: 1、将物联网设备的自动感知能力应用于机房访问管理场景。通过物联网设备自动发现设备下架、出门以及人员进入模块等情况,通过后台工单比对,将不合规情况通过告警通知机房值班人员进行相应处置,形成管理闭环。 2、采用多维度监控数据互补的形式以达到提升监控准确性的目的。例如当发生设备下架行为时,同时匹配该人员所在位置,如与发生下架处于同一区域则认可该次监控行为,以此类机制综合提升监控准确度。 机房访问安全管理落地实践 第一步:工单申请后的排队和通知管理 为了提升访客访问效率和公平性、机房访问对访客的透明性,平台引入了适用机房场景的排序算法以及多维度的通知机制,提升机房访问效率和用户体验,进一步完善了整体闭环访问管理的能力。 1)建设高效的排序机制、提升访客作业的计划性 平台采用新算法,以“作业时间长短”与“工单提交时间”为参考依据,作业时长越短排序越靠前,时长相近情况下,提交工单越早排序越靠前。同时具备对工单作业不合规的异常检查,当工单实际作业时长超过计划时长一定程度,将在未来访问机房排序中面临相应惩罚,从而使得机房访问有序可依。 机房值班人员根据每日机房作业量的不同调配陪同资源来应对业务的高峰期。平台通过将作业规划以及机房可用陪同资源综合计算,将排序结果及推荐作业规划提前通知用户,从而使得机房高峰期的访问效率得到提升。 2)提高访客对访问的透明性,告别茫然等待 平台通过移动端将排序结果通知申请人,申请人可以在第一时间获悉排序结果,并根据推荐计划安排时间,进一步合理规划作业,提升用户机房访问的透明度。 图3 多维度通知手段促进机房访问信息通知 第二步:进入机房前的登记管理 当访客成功完成机房访问相关流程申请后,工单将流转至平台内。访客抵达机房后,首先要完成人员身份的识别。G行机房通过专用设备进行身份证与人脸识别的对比方式,确保人员与计划内保持一致。 图4 人证比对仪 基于人证比对的机房访客身份识别:各生产机房部署身份比对设备,访客人员通过身份证与自身面部识别进行身份确认,有效验证人员身份。 完成识别登记后,系统将对应工单进入排序等候机制。为了保证现场访问有序,平台在试点机房入口现场设置排号和叫号大屏,通过工单排序展示,用户可以清晰地了解自己所处的就位进程,同时平台通过移动化形式将现场情况同步给作业申请人员,实现就位信息的透明化,实现了现场科学有序的等待和进入。 图5 排号展示大屏进行的叫号展示 平台为机房值班人员设计了专用叫号页面,使其对当日全部工单进行情况一目了然。提供简便的叫号功能,实时指引进入访客有序登记,避免以往人员集中到值班室情况,提高了访客和值班人员的交互秩序。 当访客进入机房前,将在各地机房管理一线处,领取对应的管理设备(包括专用的隔离笔记本、机房内位置识别的身份卡等),完成业务相关登记后即可进入机房。 第三步:机房作业中的管理 G行机房访问均由一线人员全程陪同,期间访客需佩戴人员定位识别卡片,平台将对访客进行全程轨迹记录。当访客出现访问非计划内模块、超过机房作业人数限制情况等,平台将推送预警信息至相应机房管理员处进行对应行为处置。 机房内实时人员定位告警:对于机房内人员位置实时监控,直观展示人员位置信息、相关访问信息等。发生非计划情况主动预警,提醒一线人员及时处置。 图6 人员定位实时点位图 设备非合规出门和下架情况告警:对于机柜内设备的上架、下架以及机房内设备的进门、出门情况均具备感知能力。发生非计划情况主动预警,提醒一线人员及时处置。 图7 U位管理设备和U位RFID标签 图8 RFID标签出门感应通道门 技术联动提高处置能力:发生上述告警后,平台联合人员定位、出门探测、下架探测等信息以及实时视频监控,告警发生时将第一手监控素材完整地提供处置者,提高机房值班人员第一时间的处置能力。 平台融合提高处置效率:平台从识别、告警到操作处置的具备全过程能力,处置人员彻底告别跨平台繁琐操作,提高处置效率。 图9 机房处置告警的人员处置界面 第四步:退出机房后的管理 当访客离开机房后,平台将根据人员在作业过程中的执行情况进行统计分析,包括人员的到访情况、实际的作业时长与计划的对比、作业过程中是否触发各类违规行为等,由机房管理者进行综合评价,此评价将会影响后续对应访客在G行的作业信誉度及再次到访时的作业顺序等。 平台将定期统计在机房中作业涉及的违规行为并汇总通报,提高机房作业合规性,保证机房作业安全,未来平台还将设计对长期处于低评价区间访客进行再次到访时的相关培训,以促进G行机房作业安全合规。 未来展望 安全访问管理是数据中心安全运行的基础之一,G行将持续汇聚领域技术优势,积极尝试新型技术的引入,深入应用场景的探索,积极发挥统一管理作用,以安全、高效为目标,以技术服务平台为手段,持续提升机房访问作业环境,为G行数据中心物理访问安全的管理提升持续作出更大的贡献。 来源:银融时代 浏览 12710点赞 评论 收藏 分享 手机扫一扫分享分享 举报 评论图片表情视频评价全部评论推荐 景区综合管控平台景区综合管控平台,对接景区原有内部系统,对多个内部系统进行整合任子行-网络安全态势感知与管控平台以大数据平台为基础,统一采集各类结构化和非结构化的数据NestJS 探索与实践全栈前端精选0KnowSearchElasticsearch GUI 管控平台KnowSearch是面向Elasticsearch研发与运维人员,围绕集群、索引构建的零侵入、多租户的ElasticsearchGUI管控平台。历经滴滴PB级海量索引数据考验、金融级1000+ES集KnowSearchElasticsearch GUI 管控平台KnowSearch 是面向 Elasticsearch 研发与运维人员,围绕集群、索引构建的零侵入前端架构探索与实践大海我来了0前端架构探索与实践鱼头的Web海洋0vivo 低代码平台【后羿】的探索与实践前端迷0前端架构探索与实践全栈前端精选0美团Serverless平台Nest的探索与实践前端迷010点赞 评论 收藏 分享 手机扫一扫分享分享 举报