网易云音乐崩了!
产品刘
共 2363字,需浏览 5分钟
·
2024-08-20 13:00
-
删库、删表这种操作不是普通的开发人员能随便执行的,即使是开发团队的领导也没有这样的权限。至少需要DBA的权限才能操作,而在管控严格的公司,甚至还需要总架构师的审批。
-
外行可能觉得删库、删表是个大问题,但其实恢复的速度并不慢。像网易这样的公司,主从集群、多活和灾备机制都比较健全。按理说,20分钟内就应该有部分用户恢复正常使用了。但这次事故情况严重,已经快两个小时了还没恢复,所以“删库跑路”的说法基本可以排除。
迁移规模大:需要把云音乐及其独立应用的所有服务迁移到贵州。这次涉及到2000多个应用、每秒百万级的请求,并且还要迁移中间件、存储、机房及第三方依赖服务,规模庞大。
业务复杂:业务场景多样,不同场景对数据一致性和延迟有不同要求,迁移方案必须考虑这些因素,提供标准化解决方案。此外,2000多个应用间的调用和依赖也非常复杂,分批迁移时要协调好跨机房的延迟问题。
-
历史问题多:贵州迁移前已经有很多历史技术问题,这些问题影响整体的稳定性。 -
风险大:迁移过程中会有很多新风险,且难以解决。部分场景难以在真实环境下完全模拟,基础设施建设也有不足之处,影响迁移的效率和准确性。 -
限制条件严苛:云音乐用户多,这次迁移要求不停机、不出重大故障。还需要考虑机器、带宽、网络稳定性等多种因素。 -
协调难度大:迁移规模大,参与人员多,协调难度也随之增加。另外,任何一个小细节没做好,都可能导致全局性事故。
此外,我建立了各大城市的产品交流群,想进群小伙伴加微信:chanpin626 我拉你进群。(加过微信:chanpin628或yw5201a1的别加,分享内容一样,有一个号就行)
点击“阅读原文”
查看更多干货
评论