春晚4小时背后,京东云上演16次“挪腾之术”

中智观察

共 2916字,需浏览 6分钟

 · 2022-02-13

《中智观察》第1600篇推送

作者:雨涵

编辑:杨小天

头图来源:搜狐新闻-脑极体


19天,从0到1;4小时,16次极限微操。


2022年虎年春晚691亿红包互动背后,京东云用实力“惊艳”了行业。


作为首次零新增服务器,独立支持春晚红包互动,京东云依托云舰实现了存量计算资源的高效和精准腾挪,成功应对春晚期间呼啸而来的全球最大流量洪峰。


这是云计算历史上的首次,不仅刷新了云原生超大规模实践的记录,也创造了数字新基建的中国速度。


挑战“云珠峰”


1月5日,京东被确定为2022年虎年央视春晚红包的互动合作伙伴,但面临的却是史上最难发的一届红包。不同于历届同行们通过储备足够数量的服务器来扛住流量洪峰,虎年春晚留给京东只有短短的19天,是历年来央视春晚红包互动中筹备期最短的一次,这也意味着以服务器应对的办法不再行得通。


不仅如此,虎年春晚的互动周期从1月24日开始将一直持续到2月15日,堪称史上最长的春晚互动活动周期。除了除夕的流量洪峰外,京东云还需要抗住23天的持续脉冲式流量洪峰,超长周期对数据中心资源、系统架构稳定性、业务系统伸缩调配能力等都形成极大考验。


从规模流量看,以2021年数据为例,当年春晚累计红包互动高达700多亿次,而在2022年春晚互动活动中,流量预计还将进一步增加。而数十秒内,数百亿人次参与互动点击,会形成数亿级别的QPS流量洪峰,让服务器处理数据的压力激增。用户的访问行为也不同于6·18、双11等大促,春晚7轮口播会带来7轮访问峰值,对系统稳定性、电力持续供应等都是非常大的挑战。


与往年春晚有所不同的是,今年的春晚更是一场“脉冲式春晚”,虽然整个链路并不复杂,但京东“春节也送货”的配送活动依然保留,这就要求京东不能降低日常的商城业务模式,同时需要对冬奥会的资源和物流进行保障,统筹包括前端网站、订单、结算、支付、搜索、推荐,以及后端的仓储、配送、客服、售后等在内的各环节,对底层资源的调度和分发提出了更高的挑战。




(京东云产品研发部工程师讨论春晚项目)


19天造奇迹



焦虑无处不在,挑战前所未有,面对“一无所知”的虎年春晚,京东云该如何应对?


京东云的“法宝”就是京东云原生基础设施和混合云操作系统云舰(JDOS)。云舰的独特优势在于,能最大化地屏蔽底层基础设施差异,将所有资源“辗转腾挪”。


无论是所有的底层资源、底层的业务容器还是业务服务都部署在云舰上,通过云舰来提供统一的资源调度和保障。


在云舰上,利用阿基米德智能调度系统和监控数据进行结合,利用一些应用容量和画像信息进行有针对性的资源调度和分配,这样就能够快速的去实现按场景的秒级调度的切换,最终实现资源的错峰使用。


京东云云原生产品研发部容器研发负责人赵健星介绍说“在资源整体不足的情况下,我们针对整个在线的业务进行了一些等级的调整和划分、保障,针对不同的业务优先级和不同业务的场景进行不同的调度,来保证资源的充分使用。”


以春晚口播为例,它属于整个系统中最高的优先级,因而在优先调度层面会把这些资源进行快速的调度资源扩充,在秒级别压制住之后,将更多的资源腾挪出来,对重点业务保障的资源进行扩容。在每一次口播后在“红包模式”、“日常模式”等进行来回切换,在春晚模式中,伴随主持人的7次抢红包指令,实现京东交易场景与春晚红包互动场景大小16次精准资源腾挪。


另外,针对一些非最高优先级业务系统,京东云团队也会进行整个资源的来回腾挪,首次把京东零售机房IDC和京东云进行混合的部署,并结合京东云内部的一些资源,联动云上和云下资源,充分保证整个资源的稳定性和资源的充足率。


让“大象走钢丝”,京东云这次真的做到了。


根据京东公布的数据显示,整个晚会期间,京东云混合多云操作系统云舰成功挑战全球最大规模流量洪峰,在不增加计算资源的情况下,基于遍布全国的70多座数据中心,以世界领先的近300万个容器、超1000万核算力资源,通过秒级资源极速调度,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。




除夕当天参与一线值守的京东云技术人员欢庆圆满完成任务



万人大协同



19天备战,100多个虚拟团队,万人研发的协同,近600个春晚项目需求,3000多个任务……这场超大规模的协同作战又该如何落地和顺利实施?


在这一过程中,京东云自研的研发协同开放平台“行云”发挥着不可磨灭的作用。作为覆盖了从需求、开发、测试、发布、运维、运营整个生命周期的一个工具的生态链,行云在此前的多次大促活动和日常工作中已经发挥了重要的协同落地作用,在京东形成了协作默契和协同规范。


“在春晚项目中,基于行云上的低代码平台,所有不同场景多变的红包活动和营销策略,就像搭积木一样就搭建出来,一些运营的产品经理只需要根据需求拖拉拽,就能搭建好楼层和一些活动元素。”行云平台的负责人贺玉芝坦言,“产品活动搭建好了,在这个协同快速落地上面就基本能够得到保障了。”


在行云的支持下,横跨多地和多部门的万名技术人员很快对齐了目标和规划,做到了有问题、有风险日结日清,其中资源库缩容更是按照小时级别来实时跟进进展,确保日缩容量10万荷以上。


“台上一分钟,台下十年功”,为了保证性能和稳定性,京东云团队通过云泰模拟演练可能发生的一切故障。从机房断电、宕机在内的突发事故到演练服务器崩溃、硬盘故障等各种故障,在揭示和发现问题的过程中,防患于未然,提升了备战时间。


同时,为了保障极致的用户体验,京东云团队在春晚之前进行了7轮全链路的压力测试。“我们基于实际的生产业务场景和系统环境,模拟海量的用户请求和数据,对各种场景进行测试和验证,不断给系统施压、调优、迭代。”


此外,京东云也首创了“应急剧本预案”的模式,包括前台、中台、后台以及多模块,涉及CDN被打爆、公网出口中断等在内的核心预案,其中仅简版的应急剧本预案就有61页,超过2万字。


正如京东云基础设施研发部高级总监、春晚项目IDC基础保障负责人常亮的比喻,就像是《哈利波特》里霍格沃茨校长在与伏地魔对决时复活喷泉雕像的那道“咒语”,因为威力巨大,一辈子只能由一个人使用一次。对于京东来说,必须让每一个极限操作、每一个罕见步骤都被执行过一遍,才能在春晚流量洪峰的冲击下,真正做到系统的万无一失。


公开数据显示,2020年全球云计算IaaS市场上,京东云IaaS市场占有率排名中国第五,在头部厂商中增速排名前三,跻身国内云计算第一梯队。


“春晚是最好的历练。”常亮直言,“之前我们的云技术在为企业自身或者其他企业提供服务时,都不会经历如此次大的体量,但这次是我们从零售业务线到云底座再到底层基础设施的全线拉通,是对我们过去几年云技术的真正检验。”


京东云以数字新基建的强大技术实力,在零增加计算资源的前提下,成功应对世界最大规模、最复杂场景、最长周期、最短备战时间的虎年春晚红包互动活动。在登顶云计算的“珠峰”后,乘云而起的京东云正在起航。


扫码报名参会/进群
浏览 4
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报