惊险!原来真有人敢在双11期间拉了阿里数据中心的电闸......
共 2926字,需浏览 6分钟
·
2020-11-17 11:25
物联网智库 整理发布
转载请注明来源和出处
导 读
一年一度的天猫双11又在不断刷新数据记录,0点过后0分26秒扛住58.3万笔/秒的订单创建新峰值,全天实时成交额突破4982亿元。近日,阿里巴巴CTO程立首次向外界披露了一条秘密突袭行动的视频,则让我们看到了阿里技术人员为支撑这些天文数字在背后所做的努力。
“如果双11当天,阿里的数据中心同时断网断电,我是不是就不用付尾款了?”最近,有位网友在知乎上提了这么一个问题。
相信有过类似大胆想法的朋友们并不在少数。
然而,阿里的技术团队却用铜墙铁壁般的防守向人们证明了,羊毛并不是那么容易薅滴~
断网?断电?全都不成问题~
更何况,这电闸还是阿里合伙人指挥拉断的......
数据中心的惊险时刻!
11月11日,阿里巴巴CTO程立(花名“鲁肃”)首次向外界披露了一条秘密突袭行动的视频。
时间是11月5日凌晨2:00,地点是阿里巴巴光明顶——“双11核心作战室”。
一轮全链路压测结束后,技术人员先后离场,大家该聊天的聊天,该点夜宵的点夜宵,现场气氛逐渐变得轻松愉快起来。
当时,双11技术大队长、技术安全生产负责人陈琴(花名“霜波”)甚至已经宣布:“今天的压测就到这了。”
他们并不知道,一场计划外的突袭即将启动......
趁着大家精神可能出现松懈之时,阿里巴巴合伙人、双11新零售技术负责人吴泽明(花名“范禹”)作为突袭发起人,直接按下最高级别突袭键。
突袭发起后,监控中心即刻收到告警,发送信息,系统容灾容错能力和团队响应速度遭遇极限考验。
在这种情况下,用户交易下单时会出现限流或者类似的报错。
发现断网后,阿里工程师快速发现、定位到故障,并完成了主备切换,仅仅88秒钟后,一切恢复正常。
整个流程可以总结为:
应急小组收到信息
定位业务网络故障
系统反馈可执行主备切换
监控中心确认主备切换
应急小组完成主备切换
然而,这还远不是结束……
范禹发起连环突袭:断电。
数据中心工程师接到指令后,简单粗暴的直接拉了电闸。
顿时,照明全灭、空调停转,黑暗吞噬了整个数据中心——这是数据中心风险级别最高的故障,可能导致服务器集体宕机。
这一瞬间,灾备体系自主启动,蓄电池立即开始为服务器供电。
4秒后,柴油发电机自动启动,所有供电设备恢复正常,服务器、变电站、配电房一切运行正常。
数据中心迅速恢复了光明。
据悉,此次突袭没有任何提前预警或通知,而最终所有业务没有受到影响,用户也毫无察觉。
完整版视频
针对这次突袭行动,范禹表示:“我们的系统出现故障,往往都是很多不可预知的情况,我们要让整个团队在碰到这种紧急的情况时知道怎么能够快速的进行恢复。因此,在大家不知情的情况下,我们就发起了这样的一个突袭。”
“我们的目标是一分钟发现,五分钟处置,十分钟恢复,这次我们的突袭发现、处理符合了我们的预期。”
霜波进一步补充道:“我们做的实际上是把机房里面破坏掉的应用切换到另一个机房。在断电的情况下,第一我们是有蓄电池的,第二我们还有柴油发电机的备用。基本上能做到业务无感,完成我们整体对用户承诺的供电可用性6个9(99.9999%)的目标。”
总结而言,生产突袭就是利用反脆弱的思想,通过对线上突袭,来验证在真实故障场景下系统在容灾容错等方面的表现,以及技术团队在突发场景下的应急协同能力,进而打造一个具有韧性架构的系统和组织。
此时,再回到文章最开头的那个问题,答案是:尾款总归还是要付滴~
“台下十年功”
今年的天猫双11,又又又刷新了历史记录。
11日0点过后的0分26秒,阿里的服务器扛住了58.3万笔/秒的订单创建新峰值。
11月1日0时至11月11日23:59,2020天猫“双11”成交额达到4982亿元。
这些天文数字意味着全球最大的流量洪峰——对数以亿计的消费者来说,从提交订单到付款成功不过是指尖下短短的几秒而已;对阿里后台的服务器来说,要承受的却是数据岩浆的瞬间喷发——只有扛住了这一流量洪峰,剁手党们才能够支付顺畅、购物不卡壳。
每年,我们都会为这些表面上看起来光鲜的数字感到惊叹,但近日曝光的这支视频,却让我们看到了阿里技术人员为支撑这些天文数字在背后所做的努力。
正所谓“台上一分钟,台下十年功”,比如这次突袭,虽然事出突然,但相关人员依然能够从容应对,因为在此之前,他们已经经过无数次的演练。
据量子位在《阿里突遭断网断电!双11最惊险一幕刚刚曝光》一文中介绍:在阿里,这种突袭早已普遍而日常,还有专门因此形成的红蓝军对抗。蓝军负责设计突袭弹药,常在不经意间发起突袭,红军则需要在极短时间内修复故障。
对外,这种技术突袭和红蓝对抗一直不为人知。阿里内部,还将这种红蓝军的偷袭与防守,类比为对系统打疫苗。
故意在可控半径内将故障注入系统以测试系统的响应,类似于将少量有害物质注入体内激发免疫反应以防止未来疾病。甚至还有更疯狂的举动,阿里为这种突袭专门设计了App,简化成一个“按钮”,串联了阿里巴巴经济体的各种技术架构和业务手段。方便随时随地,按下按钮完成突袭。
正是在这种强度的训练下,阿里针对断网断电等极端故障,才能显得如此游刃有余。
根据知乎答主时乙戌的总结:首先,阿里系统架构本身就具备容灾与容错能力,异地多活与同城容灾能力的持续建设,让一方发生故障时,问题机房的流量能快速逃逸到正常机房,突袭时核心业务能够在10分钟内恢复。
其次,阿里系统架构具备极快的故障监控发现能力,在系统发生问题的时候,第一时间感知到并完成修复。甚至阿里云数据中心还配备AI机器人”天巡“、智能运维等技术,故障硬盘还能够四分钟内更换….
最后,阿里已拥有成熟的突袭机制,把重大灾难场景下的极端情况变成了常态化的突袭,在发动故障时能够采用相应的预案执行,执行之后业务可恢复。
结语
每年的双11,都是一场购买力极限与技术极限的战争,也是阿里新技术的最佳演练场。
正如阿里巴巴董事局主席兼CEO张勇曾经说过的那样,“过去,我们从不回答预测双11销售额的问题,我最关心的是,我们的技术每秒钟能够支撑多少笔订单的处理。”
因为,每一笔交易的安全性都值得被认真对待。
参考资料:
1.阿里云官方账号
2.《阿里突遭断网断电!双11最惊险一幕刚刚曝光》,量子位
3.知乎问题《如果双11当天,阿里的数据中心同时断网断电,是不是就不用付尾款了?》
4.《16小时31分,天猫双11再破2018年全天记录!亚马逊、微软没有做到的,阿里云如何做到?》,物联网智库
往期精选