春晚难不倒京东云
共 7004字,需浏览 15分钟
·
2022-02-10 04:57
编辑 | 胡喆
“看春晚抢红包”不仅是千家万户生活的一部分,一定程度上来说,也是各大互联网公司技术展示的第一舞台。
其实,对于参加春晚量级的互联网公司来说,一次春晚能带动的短期数据增长并不那么“诱人”,完整的展示自己的互动能力和技术水平,才更是春晚的诱人之处。
2015年,微信登场春晚的这一年,中国网民不足6亿。而京东抢下2022年虎年春晚时,中国网民数量已经稳破10亿。
交互的复杂性和规模的增长,与云计算等新一代数字技术的发展,谁跑赢谁?
而似乎为了给自己“增加难度”,2022虎年春晚,京东破天荒的加入了实物环节,这是自信还是自知?
1月31日20:00,雷峰网与此前沟通过的京东云春晚项目IDC支持及资源运维管理负责人常亮核对一个交流细节,他只回了一句话,我在春晚值班……
这一天,“共赴春晚”的还有3000多个京东工程师,只不过他们的参与方式并非安闲的在台下观看,而是用互联网和云计算的力量保障春晚红包互动这一全球最大的网络互动的活动……
根据不完全统计,2022年虎年春晚期间,全球华人参与京东APP红包累计互动量达691亿次;自年货节启动至春晚结束,京东云自主研发的京东智能客服言犀,累计咨询服务量达5.5亿次,为16.5万商家提供超1亿次服务;京东科技核心交易系统持续不间断能力超99.99%......
因此,京东云成功打赢了虎年春晚保卫战!
回顾从备战到春晚结束的历程,有诸多故事颇为震撼,从京东云以历史最短的19天备战时间在不增加计算资源的情况下,依托云原生数字基础设施和混合多云操作系统云舰,秒级调度近300万个容器、超1000万核算力资源,在春晚的7轮红包互动中,实现春晚互动模式与“年货春运”模式之间16次的无缝切换,让用户体验流畅红包互动的同时也畅享年货云上购物。
虎年春晚,从技术备战的角度来看,也是历史上最具挑战性的春晚之一。
1
虎年春晚的“四大难题”
1月5日,在中央广播电视总台2022年春节联欢晚会独家互动合作项目发布会上,官宣了京东成为2022年春晚独家互动合作伙伴,该消息一出当即成为热门话题。
自开启了春晚携手互联网公司一起“看春晚”的先河,如今已经走过了7个年头,诸多行业巨头参与其中并且乐此不疲。
其实,我们都知道,随着移动互联网的发展,技术不断升级的同时,春晚的交互玩法的创新需求也在不断增加。然而这里面就有个问题,每增加一个新体验、新玩法,在如此高流量、高并发的场景下,对任何互联网公司而言,对技术硬实力都是严峻的考验——然而,这也是互联网大厂为何如此钟情挑战春晚的原因之一,世界上还有比这更检验和证明技术能力的舞台么?
与以往不同的是,本届春晚互动活动,除了有抢红包的活动还将送出实物大奖,京东邀请全民分15亿红包和好物,同时活动从腊月二十二(1月24日)到元宵节(2月15日)将持续23天。
为什么说本届春晚互动活动最具挑战?其实可以从四个“最”来看:备战时间最短、规模最大、场景最复杂、持续时间最长。
从1月5日官宣、启动备战、到1月24日春晚红包互动预约活动开启,虎年春晚留给京东云技术团队只有短短的19天,这个时间比上届的27天缩短了近30%,并且,活动持续到元宵节共23天,持续时间上也创造了历史。
对比的场景是电商节大促,一般来说大促峰值差不多在一小时内,春晚有七轮口播则意味着有七次潮涌式超大峰值。根据预测数据显示,春晚的流量峰值差不多是618、双十一的数十倍。以去年的春晚为例,相关数据统计,全球约12.72亿人观看了春晚,期间累计产生红包互动达700多亿次,并且在数十秒内,有数十亿甚至数百亿人次(累计)参与互动点击,形成数亿级别的QPS流量洪峰,因此这非常考验平台的承载力和稳定性。
常规红包互动的高并发已经是全球最大规模的网络互动,更何况还叠加了京东的“年货春运”,可谓是春晚史上的历史性突破——这是第一次打破基于全程虚拟互动的春晚玩法,“从虚到实”的把线上线下场景结合进来——诚然,物流效率是京东无可比拟的绝对优势,但在如此关键的时点,如此生猛的给自己加难度,还是让人瞠目。
因为,这堪称世界级的庞大而复杂的供应链应用场景,涉及了前端网站、订单、结算、支付、搜索、推荐,还有后端的仓储、配送、客服、售后等诸多业务系统,并且都需要依托京东云的技术支撑,每一个链路环节的增加,对春晚场景的复杂度和应对难度都是指数级的增长。
因此,2022年的虎年春晚,成为了全球规模最大、场景最复杂、周期最长,同时筹备时间又最短的活动之一。
2
打破传统,京东为什么
敢接这个事儿?
多年以来,人们很少把京东和“技术”这个符号联系在一起,虽然刘强东在2018年曾经喊话——未来,京东只有三样东西:技术!技术!技术!
但是,这依旧让人们担心,京东的技术平台是否能从支撑内部业务延展到能接下来春晚这个超大流量和复杂场景。
今年的春节期间,京东人忙坏了,要备战春晚,还有年货节以及冬奥期间的物流保障。而最大的挑战,是如何在现有的资源配置下,应对4小时的春晚几亿观众同时参与的红包、抢好货的活动,再同时保证其他战略级项目的丝滑运转,要知道,总体备战时间只有19天。
不重视显然是不行的,由于整个春晚红包互动项目任务急、挑战大,场景复杂涉及的人员又多,京东拉通了数十个部门参与备战,涉及京东零售、京东科技、京东物流等各BGBU。
更准确的说法是,京东集团技术体系有超3000名技术人员参与了春晚项目的技术攻关与保障工作,除夕当天参与一线值守的技术保障人员近2000人,超万名技术人员协同作战,支持跨度超过一个多月的年货节、春晚等超级项目。
当然,到底是孤注一掷以赢得“技术京东”这块金牌?还是早有把握渡过难关?笔者倾向于后者–—成功固然可喜可贺,但如果失败则颇损美誉,京东输不起也不能输。
这里面的关键角色,是作为整个技术底座和动力引擎的京东云。
前段时间,京东云发布的业内首个混合多云操作系统云舰(JDOS),实现了更大规模异构基础设施的统一化调度,而京东云依托云原生基础设施、混合云操作系统云舰,能够根据场景的不同,快速变身满足不同的业务需求。
其实,如果真正说希望借助春晚打开市场,那京东瞄准的也绝不仅仅是红包流量带来的消费级市场,而是增量空间更大的云计算市场。这个市场的目前已经有巨头林立,如果要进入赛道的第一序列,春晚红包互动这块最硬的“试金石“是京东云必须磕下的硬仗。
的确多年以来,京东都扛住了618、双十一等大促下的高并发流量洪峰,但毕竟是体系内的战斗。京东云希望春晚可以证明——经历过高压复杂的超级应用场景“大考”之后,京东云的实力认可度将不局限于服务京东生态,可以延伸到行业层面。
然而春晚这个场景京东是第一次遇到,只有19天的备战时间让搞定这场硬仗多了一些紧迫。
从技术方面来看,往届合作厂商应对高并发场景的万无一失的办法是增加服务器做到超级冗余。但如果仅仅靠此拿下大考,则技术含量大打折扣,因此京东云内部有了一个战略性决定:在零增加服务器资源的情况下独自支持春晚,而整体方案的设计上,将计算资源在摇红包和购物两个场景间来回切换。
也就是说,在虎年春晚红包互动活动中,京东云需要高度弹性的控制着近300万的容器、超过千万核的资源,在购物和红包互动的场景中来回切换,一个场景结束后,需要马上把部分资源释放到下个场景的应用上,也就是在不影响常规业务的前提下,将底层空间腾出来重构。
京东云敢这样做是有底气的。
在多年618、双十一大促的历练下,京东云习惯了用“备战常态化”来降低大型活动对IT计算资源的集中消耗。也就是,京东一直通过大促的技术标准来提高日常技术标准,逐渐缩短研发的备战时长,提高备战的效率,还能以更少的人力、资源,达到更好的科学备战效果。
因此,京东不缺高并发的业务场景,而云舰又能帮助京东云在不需要购置大量服务器的前提,能实现敏捷调度、平稳运行和高效协同,最终,如果顺利的话,京东云能采用快速通过积木拆解和重组的方式搭建基础设施,进而让业务得以快速研发和部署。
京东云的信心来源之一,是作为电商巨头而拥有超过1000万种自营商品、几十万品牌商和制造企业,并服务了超过5.5亿消费者的超级供应链,已经实现了全栈式的数智化技术连接,因此此次备战春晚,京东将依靠丰富的经验和系列运营保障机制,主要依靠系统而并非人力来确保关键节点的稳定性。
3
云舰保障了虎年春晚
4小时的全局
“刚接到这个任务的时候,其实我们是非常激动的,都有点发抖”, 京东云云舰架构师赵建星回忆说,刚听到要做春晚互动项目的时候,瞬间想起多年前京东大促各种告急的时候,当时大家接到消息后就直接跑到机房里保障各种业务。
的确,京东是在大促环节结结实实摔过几跤的,而电商节大促不仅检验企业的科技实力,也在考验技术团队。
2011年11月1日,京东做图书限时促销的活动,“秒杀”活动让流量瞬间达到每秒10万单,然而系统瘫痪了,总指挥直接请来负责当时IT前端的和后端的两位副总裁到办公室“喝茶”。
其实,这个段子并不是真的,但对于相关的负责人,还是有批评但也有宽容的。
和当年比起来,京东无论技术、体量、规模、用户群体和现在都不是一个等级,如今接到如此重磅的任务对赵建星来说,意味着升级了武器再挑战终极BOSS,他内心的感触颇深。
赵建星团队的任务之一,是在不降低日常商城业务模式的前提,保障年货节和冬奥期间物流配送的资源支持,从资源角度对京东云来说,是历年挑战最大,对底层的资源调度和分发的压力也是巨大的。
整体活动来看,是随着春晚摇红包的节奏,将整个资源在购物应用和摇红包之间来回做切换,而这个切换核心是云舰对底层资源调度的能力。而且调度方面,摇红包时间上是一分钟,而很多资源的调度要求秒级到位,而后又要释放给其他应用,这涉及到隔离性和容器化管理的精准调度能力。
“京东所有的业务系统都跑在云舰上,都是容器化的。”赵建星说,“这是我们的底气。”
云舰管理的这个超大资源池,要支持年货春运购物交易系统,还有春晚红包互动系统,也有冬奥期间物流保障系统,在这几个系统来回做保障,当期的业务资源需求量相当大。而且春晚的每轮口播产生的摇红包场景,都伴随着潮汐式的上亿级流量高峰,因此在备战春晚的过程中,赵建星带着团队做了很多根据业务场景交替来回切换资源的技术保障。
也就是在零增加服务器的情况下,通过快速调度资源支持业务场景的切换,得以短暂且高效地为春晚提供资源保障。
由于资源有限,需要将京东的整个业务进行等级调整、划分、保障,针对不同的优先级和业务场景,分别进行不同的调度,有的升级有的降级。
赵建星表示,团队几乎每两天一次压测,不停地扩充和保障资源,再根据业务的协同和整个项目组的沟通,保障资源来回按需降级和恢复正常。
以春晚口播这个场景为例,首先口播红包业务场景的优先级是最高的。
那么,该业务的资源在整个调度链路层也是最高的,基于“优先调度”将这些资源进行快速调度并扩充。资源调度完了之后是切换,将离线、离在线等任务的资源进行秒级快速压制,腾出来更多的资源,此时其他业务的资源也适当缩容,这样能腾出更多的资源空间保障重点业务。
“每次口播都会来回切换。”当口播红包的顶峰流量下来后,再将这些资源归还到正常的业务系统中去。因此,在调度的过程中业务系统数量相当庞大,调度的过程也需要针对所有的业务系统进行一些定级精致化的分类。
尽管多年618、双十一大促的经验下京东不缺高并发的场景,然而从来没做过如此大规模、高密度、高精度的调度,同时需要在秒级完成调度,这无疑来说对京东云具有极高的挑战。
“整体来说,规模量、快速调度的精准性、高密度隔离性,对我们来说都是极大的挑战。”赵建星表示。
其中,稳定性是最高优先级,资源的腾挪必须高效,同时,各业务间还要具有很高的隔离性。由于尽可能全部由自动化实现,总体超过80%的调度速度都在秒级,S级项目必须是秒极完成,所有预案都是分钟级完成。
而赵建星带着团队,通过秒极完成全部资源的管理与统一调度,最终保障了春晚4小时互动项目里系统最稳、敏捷度最高、成本最优。
4
极限的精密预演下排除不可控因素
“京东云的春晚保障是想把人算做到极致,去迎接天算的考验。”
常亮是京东云春晚项目组IDC基础保障1号位,对于他们团队来说,作为整个项目的基础建设部分,从最前端到最后端都要做技术保障,所有的前中台,包括云底座都会落在数据中心、网络和硬件上这三大件上,“哪个部分发生一丁点的抖动,再精彩的内容都会受到影响。”
因此,京东要将所有的需求划定在可控范围内。
常亮回忆,1月13日团队就确定不再承接新的需求,尽管资源不够,但是需求已在可控范围内,有了明确的边界和框架和天花板,所有的工作就能被精准、精细地落地和执行下去了。因此,理论上每次的压测结果和十次结果都一样,用计算机学的术语就是系统越趋近于幂等性,所得的结果都可预期。
那么天算呢?
面对突发的未知情况,靠的是快速响应,同时需要兜底方案、需要预演,要靠一个完备的组织和决策机制,因为现实情况是,一号位、核心接口入场可能要在3-5分钟这样的极致时间里做决策,要通过这种方式应对各个环节发生的问题。
所以说,只要在需求确定的情况下,无论突发情况是什么,都可以应对自如。
比如,1月6日、1月7日,常亮带领团队开始做了第一次的压测,直到1月22日进行了七次压测,当时所有的流量模型都固定了,然而在23日预演的时候发现,有诸多需要修改的地方,这会给CDN带来什么直接后果呢?此前做的流量模型全部作废、重新做。
常亮表示,原始数据的由来,是将所有业务线,从前台,包括从零售、健康、物流、科技等所有业务线的需求进行优先级和主次、分层圈定,因此一旦加了修改,首先遇到的问题就是,有些业务要牺牲了,舍谁保谁是个很大的问题。
常亮坦言,一旦出现涉及到资源的临时需求,就要看能否人定胜天。具体来看,如果还有10天的时间,把相应的元素包全部替换、预置在手机里就行了,如果只有5天的时间,重做一款APP,审核时间是不可控的。
而为了更好地解决应急挑战,京东也首创了“应急剧本预案”模式,重点排查和预防TOP 级困难。而整个剧本涉及了从前台、中台、后台,包括安全,包括基础设施三大块,所有涉及到春晚支持的应急演练剧本。
常亮分享了一个有趣的故事,核心剧本里有个情节,就是流量峰值的时候,两个机房间的网络专线之间如果出现堵塞或中断问题,系统会是什么样子?
“当时我们的剧本很简单,就是在这种场景下,谁是网络组的负责人,谁做专线切换操作,要多少时间生效... ...”常亮表示,当时大家按照剧本是执行完了,结果每五分钟出现一个掉坑,大家就不理解这种规律性抖动到底是怎么回事。
经过两个小时的排查发现,其实是三个不同的原因恰好卡在了每五分钟的一个时间点上,第一个坑因为网络线路中断引起了抖动,第二次因为中台的容器在没沟通的前提做了local DNS的切换演练,第三次是因为中台在做压力测试的时候,置换了一部分优惠券,所以也就是看起来像整个系统出现了规律的震荡。
“当天晚上大家都长舒一口气。”常亮回忆称,整体来看这个剧本是有效的,“其实你只要演练一次就可以形成流水线式的操作。”常亮表示,没演练剧本的话,遇到问题现沟通十来分钟过去了,离下一轮口播还剩十来分钟,怎么办?所以,通过剧本演练,能向团队真实地展现春晚场景,能对整个系统的情况有一个形象的预测认知,所以对于参与春晚的3000的研发人员来说,能得到整体的经验提升。
关于剧本的撰写,有了总体方向后,还要进行不止一次的评审环节。编辑的需求是剧本不能写的太复杂,得让大家看得懂。因此到最后,精简下去就是三句话:谁、什么场景、多久恢复。第一轮剧本的评审环节,常亮记得特别清楚,基本没几个合格的,不是写得多就是写得不精准,逐渐打磨后就变成一眼就能看出来能执行的剧本,比如:宏飞、赶紧切、一分钟。
常亮回忆,当时接到这个项目时候大家是骄傲的,有一份荣誉感、使命感,春晚当天大家打开APP一起参与摇红包的那刻起,大家心底里都知道,这是身处技术底层的大家一起奋斗的结果。
5
写在最后
从数据可以看到,春晚红包的互动次数每年都在增加,2019年是208亿次,2020年是639亿次,2021年是703亿次。
春晚红包互动已经进入第7个年头,见证了互联网流量的兴起和更迭,也从拼资源阶段发展到拼更高效敏捷的系统架构,目前迎来了越来越多实体经济的身影。
2022年也是京东连续第十年的“春节也送货”,在春晚流量的洪峰背后,还有庞大且繁杂的供应链,而此次备战虎年春晚,对于诸多京东的技术人员来说,让大家重燃起激情,激发出团队追求极致的技术精神。
回到虎年春晚,这不仅是全球流量最聚集的场景,极具技术挑战的背后,京东云用科技硬实力告诉大家,京东的技术体系可以迎接全球最大的互动场景以及年货春运场景下的两重大考,让“科技京东”带领着全球的观众共享春晚的视觉盛宴,切身感受更快更好的配送体验。
END
辛巴薇娅们那些事儿
大公司该不该砍掉 IT 部?