扫码关注公众号
扫码关注公众号
全部
案例介绍

关于XXX云服务中断事件之基础设施侧的对标分析

网传于北京时间2022年12月XXX云服务发生大规模服务中断事件,在数据中心运维圈引起众多反响,ZZZ基地运维团队研究其复盘处理过程,就数据中心基础设施侧进行了对标分析......

案例详情

 

网传于北京时间2022年12月XXX云服务发生大规模服务中断事件,在数据中心运维圈引起众多反响,ZZZ基地运维团队研究其复盘处理过程,就数据中心基础设施侧的对标分析如下:

 

初始故障定位:从网文推断,该事件的起因为冷却系统缺水导致冷冻站供冷中断,应为市政停水或冷却水补水系统故障。

——若市政为有计划的停水,机房运维侧应该有24小时以上做出应急预案,应该有方法有效避免此次事件,或因为市政计划停水的信息未传达到机房运维团队,则可定义为最低级人为失误,数据中心运维管理重视外部信息的闭环管理,数据中心红线外的供配电,市政供水,供气和通信接入,通过责任OKR,可在较低管理成本下100%杜绝。

——若为市政供水管道爆管等紧急事件,数据中心规划设计应设置有冷冻站的蓄水补水池,机房运维侧应该有8小时以上做出应急预案,通过内外部消防水的增援,通知客户和倒换业务,即使发生故障,故障影响范围和时长应该可以有效控制。

——虽文中未具体说明,本事件起因定位为补水系统的故障的可能性最大,冷却水补水中断,导致冷却水管道严重缺水并进气,冷机冷凝器超温,在运行的冷机宕机,虽然暖通系统的冷冻主机为4+42N冗余,在设备侧是T4标准,但冷却水管道中进气(本案可能涉及超高建筑,冷却水管道总长较长、上下弯多,可存气体区域较多),冷却水系统不能正常循环,备用冷冻主机只是摆设,对补水系统的配置和监控管理,很可能是本项目的短板,从文中对BA解锁时长描述,说明BA系统的功能和监控报警存在重大缺失,可能补水泵组的故障导致的蝴蝶效应,冷却水监控报警、运维规程和运维人员能力等因素,多个木桶短板效应,引发制冷系统的崩盘,现场基础设施运维团队难以招架,在历经近9小时后才恢复供冷。

 

08:56,XXX云服务客户端监控到XXX云服务机房包间通道温控告警,XXX云服务客户工程师介入应急处理,通知机房服务商进行现场排查。

——问题分析:动环监控及运维值班的发现问题和提出问题,文中表述“业务侧先发现问题后通知机房运维现场”,指向机房现场的动环监控系统、BA系统功能的报警管理不完善或阈值设定不科学,或现场运维团队能力不足,或现场运维规程不完善,现场基础设施运维值班人员没有首先发现问题和提出问题。

——改进措施建议:应进行多维度的问题溯源,进步完善动环监控系统和BA系统,优化运维规程,加强人员培训,增加运维团队配置。

——ZZZ基地对标情况:ZZZ基地BA系统对温度、压力、流量传感器均设置有告警阀值,若是冷却系统缺水导致故障BA系统连续出现多个告警。动环系统设置了多级报警阀值,温度告警可以分为重要与紧急,我方运维人员设置的告警阀值比客户要求的告警阀值低。从ZZZ基地现在实际情况分析出客户比我方运维人员先发现故障的情况比较小。

 

09:01,XXX云服务客户监控到该机房多个包间温升告警,此时工程师排查到冷机异常。

——问题分析:若由于冷却水系统缺水导致本次事故,BA系统应出现;紧急补水泵告警;液位报警;冷机故障告警;冷冻水温度告警;压差告警等一系列告警。在工程师排查的同时运维值班未根据BA系统上的冷冻水出水温度与冷冻泵频率发现问题。工程师发现多个包间温升告警到排查出冷机异常所用的时间过长,多个机房同时温升告警只有水流中断与冷冻水温度过高会导致多个机房同时发生温升告警。在本次事件中为提及蓄冷罐,在发现冷机异常后应第一时间开启蓄冷罐向末端供冷。

——改进措施建议:对BA系统进行进一步的优化,完善BA系统告警规则,加强运维人员的专业知识培训。

——ZZZ基地对标情况:ZZZ基地为单层建筑,冷却塔距离地面约11米,安装有10个液位传感器,若出现冷却塔水盘缺水的情况水会第一时间告警。冷却塔补水采用双路市政水补水,设有冷冻站专用蓄水池,蓄水容量1000m³,在出现双路市政水停水的情况下,还可以使用紧急补水泵与快速补水泵向冷却塔补水。结合ZZZ基地实际情况分析得出发生冷却水系统缺水导致机房高温的情况比较小。

 

09:09,机房服务商按应急预案对异常冷机进行4+4主备切换以及重启,但操作失败,冷水机组无法恢复正常。

——问题分析:若由于冷却水系统缺水导致本次事故,冷却水管道中会出现大量的气体,而且冷却水水量严重不足,不满足切换备用冷机的条件。

——改进措施建议:完善BA告警规则,完善运维人员巡检机制,增加紧急补水泵。杜绝冷却水系统出现缺水情况。

——ZZZ基地对标情况:ZZZ基地采用双路市政水补水,备用紧急补水3台,快速补水2台。运维值班人员采用8小时工作制,每4小时巡检一次,会第一时间发现异常,避免冷却水系统缺水。结合ZZZ基地实际情况出现冷却水系统缺水导致冷机无法启动的情况比较小。

 

12:30,冷机设备供应商到场,在多方工程师诊断下,对冷塔、冷却水管路及冷机冷凝器进行手工补水排气操作,但系统仍然无法保持稳定运行。XXX云工程师对部分高温包间启动服务器关机操作。

——问题分析:故障设备和系统不能及时准确定位,导致冷却水系统管网进气,是本次故障蔓延的关键因素;从发现故障开始到分析出故障原因的三个半小时内未对暖通各个设备进行检查,运维人员未发现冷凝器高温、下塔温度过高、冷却塔缺水,冷却塔缺水的情况下紧急补水、快速补水未及时启动,导致浪费大量的抢险时间。

——改进措施建议:加强对运维人员的专业知识培训,完善巡检机制。

——ZZZ基地对标情况:ZZZ基地值班人员每4小时巡检一次,工程师每日巡检一次,暖通专业每月都会对运维人员进行一次专业培训,BA系统对温度、流量、压力传感器均设置有报警阀值,其中任何一项出现异常都会触发告警,综合基地实际情况若发生故障运维人员能在短时间内分析出故障原因,准确定位故障设备和系统。

 

14:47,冷机设备供应商对设备问题排查遇到困难,其中一个包间因高温触发了强制消防喷淋。

——问题分析:随着机房冷却系统失效,包间温度逐渐升高,导致一机房包间温度达到临界值触发消防系统喷淋,电源柜和多列机柜进水,部分机器硬件损坏,增加了后续恢复难度和时长。

——改进措施建议:加强机房服务商管理,梳理机房温升预案及标准化执行动作,明确温升场景下的业务侧关机和机房强制关电的预案,力求更简单有效,并通过常态化演练强化执行。消防喷淋,可能造成IT设备和配电设备进水,而产生永久性损坏或现场火灾,造成故障蔓延,对可预知的消防喷淋,确定无火灾隐患或可控火灾范围,可以有响应的消防应急方案,停用自动喷淋灭火功能,切换为手动启用,加强现场人员巡查或值守,最大程度保证机房现场设备和人员的安全。

——ZZZ基地对标情况:ZZZ基地值班人员每4小时巡检一次,工程师每日巡检一次,会第一时间发现异常,若出现高温无法控制的情况,会第一时间联系客户进行业务侧关机和机房强制关电的预案。消防主控室监控与ECC监控值班人员复用,现场可按需实现灭火系统的前自动、半自动和手动的切换和管理。

 

15:20,经冷机设备商工程师现场手工调整配置,冷机群控解锁完成并独立运行,第1台冷机恢复正常,温度开始下降。工程师随后继续通过相同方法对其他冷机进行操作。

——问题分析:BA宕机、BA系统冷机群控程序不完善、BA系统群控单元出现故障,都会导致冷机BA系统无法控制多台冷机同时启动。

——改进措施建议:优化BA系统,在冷冻站内设置独立的BA控制室,将冷冻站内设备的需要遥控和遥调的设备,如电动阀启停、水泵启停的阀控柜集中管理,本地可快速跳过BA系统控制,快速实现无BA的手动模式。

——ZZZ基地对标情况:设置专用BA控制室,电动设备都可在BA控制室实现集中手动控制,可不通过BA群控系统就在本地快速切换为手动状态,具备 BA在宕机后可以通过手动启动暖通设备的功能,BA群控逻辑为冷机逐台按需启动,未设置威多台冷机同时启动还配置了主备两套群控,出现无法开启冷机的情况比较小。

 

对标小结:

数据中心基础设施的配置,因历史原因可能存在缺陷或短板,运维团队的首要任务应该是掌握现场情况,制定日常巡检、高危巡检和应急预案,及时发现隐患、提出问题和定位故障,采取相应的措施将小范围事件消除,避免故障蔓延而造成对客户设备和系统的负面影响。对全新投运的数据中心,有条件的情况下,可组织运维团队参与工程竣工验收和测试验证工作,熟悉系统特点,掌握配置详情;对中途接维护的数据中心基地,应组织运维专家团队进行全面调查;通过专家团队统筹,快速形成适合本基地运维知识库,指导运维团队制定巡检项目和应急预案,建立故障响应和专家支持的绿色通道。考虑到数据中心设备设施需7*24小时的不间断运行,监控值班人员应具体一定的能力,能及时发现问题和准确描述现象,支撑专家团队快速定位故障原因,通过运维专家的指导能快速定位故障设备和实现应急操作。同时,数据中心运维工作不能完全依靠设备厂家,运维团队应配置技术专家,结合具体问题具体分析快速定位故障原因,制定有效的应急处置方案,建立完善的故障响应机制,运维专家应能到场响应或保持7*24远程在线。

重庆同城双活数据中心的暖通系统配置乃有不足,运维工作中的设备自然老化磨损、系统累积故障情况不可避免,需要在后续运维工作中坐实做好日常巡检、高危巡检和数据分析,提前发现小问题,及时整改消缺,阶段性现场会诊,加强对运维值班人员的培训和考核,提升团队运维能力,保障数据中心基地的整体服务能力。

 

重庆同城双活数据中心基地  

暖通小组:司乾浩 林杰 吴文涵 王信件

指导:宋代华 曾俊威  何颖