网易云音乐崩了!

产品刘

共 2363字,需浏览 5分钟

 ·

2024-08-20 13:00

19日下午3点左右,许多网友在各大社交平台上反映网易云音乐的App和网页版都出现了“瘫痪”现象,不仅歌曲加载失败、无法播放,甚至页面也打不开,播客和直播功能也无法使用。“听着听着歌突然停了,再也放不了了”“播放不出来,卸载重装后直接登不上”“以为手机坏了、网络断了,怎么也没想到是App的问题”……不少正在听音乐的网友被迫中断了他们的午后时光。
故障发生期间,有传言称网易云音乐的“瘫痪”是因为开发者删除了数据库并逃跑,个人觉得不太可能。
  • 删库、删表这种操作不是普通的开发人员能随便执行的,即使是开发团队的领导也没有这样的权限。至少需要DBA的权限才能操作,而在管控严格的公司,甚至还需要总架构师的审批。
  • 外行可能觉得删库、删表是个大问题,但其实恢复的速度并不慢。像网易这样的公司,主从集群、多活和灾备机制都比较健全。按理说,20分钟内就应该有部分用户恢复正常使用了。但这次事故情况严重,已经快两个小时了还没恢复,所以“删库跑路”的说法基本可以排除。
官方的解释是基础设施故障。
可能是网易云音乐杭州机房迁移到贵州机房导致的。
他们的迁移计划看起来挺复杂的。
文章链接如下:
https://finance.eastmoney.com/a/202408193159666519.html
项目难点:
  • 迁移规模大:需要把云音乐及其独立应用的所有服务迁移到贵州。这次涉及到2000多个应用、每秒百万级的请求,并且还要迁移中间件、存储、机房及第三方依赖服务,规模庞大。

  • 业务复杂:业务场景多样,不同场景对数据一致性和延迟有不同要求,迁移方案必须考虑这些因素,提供标准化解决方案。此外,2000多个应用间的调用和依赖也非常复杂,分批迁移时要协调好跨机房的延迟问题。

  • 历史问题多:贵州迁移前已经有很多历史技术问题,这些问题影响整体的稳定性。
  • 风险大:迁移过程中会有很多新风险,且难以解决。部分场景难以在真实环境下完全模拟,基础设施建设也有不足之处,影响迁移的效率和准确性。
  • 限制条件严苛:云音乐用户多,这次迁移要求不停机、不出重大故障。还需要考虑机器、带宽、网络稳定性等多种因素。
  • 协调难度大:迁移规模大,参与人员多,协调难度也随之增加。另外,任何一个小细节没做好,都可能导致全局性事故。
如果迁移的团队中再有人被降本增效了,那出现此类事故也就在情理之中了。
网易云音乐突然来这么一出,可能会把QQ音乐的员工年终奖往上抬一抬。QQ音乐员工应该感谢网易云音乐员工刷的这波火箭(手动狗头)。

此外,我建立了各大城市的产品交流群,想进群小伙伴加微信:chanpin626  我拉你进群。(加过微信:chanpin628或yw5201a1的别加,分享内容一样,有一个号就行)

视频号推荐

关注微信公众号:产品刘 可领取大礼包一份。

··················END··················
今日报告:中物联 发布2023年货车司机从业状况调查报告下载报告去公众号:硬核刘大  后台回复“货车司机”,即可下载完整PDF文件。
申明:报告版权归 中物联 所有,此处仅限分享学习使用,如有侵权,请联系小编做删除处理。

RECOMMEND

推荐阅读
广州值得加入的互联网公司
手把手教你做AI产品经理
手把手教你画「用户旅程图」
线下实战2.0

点击“阅读原文”

查看更多干货

浏览 190
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报