割接时路由配置错误,导致全网瘫痪

共 1772字,需浏览 4分钟

 ·

2021-10-30 23:30

来源:网优雇佣军

物联网智库 转载

二次转载请联系原作者

导  读

10月25日,韩国运营商KT的整个有线和无线互联网服务在全国范围内发生中断,导致其所有客户在大约一个小时内无法连接互联网和使用电话服务。



当地时间2021年10月25日11点20分开始,韩国运营商KT的整个有线和无线互联网服务在全国范围内发生中断,导致其所有客户在大约一个小时内无法连接互联网和使用电话服务。


同时,因KT整网服务中断,还并发导致了韩国另外两家运营商SKT和LG U+的网络拥塞。


可以说,在这一个小时内,韩国通信界遭遇了“至暗时刻”。


10月26日,KT官网以CEO的名义发布了公开致歉信,并对事故原因进行了确认。


信中表示,对于引起这起重大网络事故的原因,最初估计是因外部DDoS攻击导致,但最终确认原因为:在更换路由器以升级网络的时候,因网络路由设置错误导致。


路由设置错误,可能会导致数据流量流向不正确而引起局部节点负荷过载,从而引发全网瘫痪。


看起来,与前几天日本软银遭遇的网络重大故障相似,本次事故也是因割接导致。


尽管KT已公布故障原因,但并未进行详细解释,仍然给业界留下了不少谜团...



1.为何没有自愈保护?


电信网络一直以高稳定性、高可靠性著称,早在PSTN电话网络时代,网络线路就设置了1+1保护或自愈保护,主用线路在发生中断后,通常可在50ms内自动切换到备用线路,或从相反方向迂回连通。


2018年11月,因KT位于首尔Ahyeon区中心的电信大楼发生火灾,导致该地区网络瘫痪,通信服务中断了数天。事后,有韩国业内人士质疑,这可能是因为KT的网络拓扑设计不够先进,设备和线路的冗余配置和自愈保护不够完善导致。他认为,尽管KT的骨干汇聚网络拥有充分的冗余配置和自愈保护机制,但在昂贵而庞大的接入网部分,冗余配置不够充足,环状自愈保护设计不够完善,从而导致了此次火灾后网络长时间中断。


但本次事故比2018年的火灾事故要严重得多,火灾事故影响范围为一个区域,而本次事故影响范围为全国。既然影响范围这么广,可以估计,本次事故的故障点并非在网络接入层,而是在网络骨干核心部分,这就好比“主动脉”阻塞,导致全网的“血液”输送不畅。



那问题是,难道KT的核心网络也缺乏完善的自愈保护机制?这显然是不太可能的。那是不是还有其他原因?


2.是否因为BGP路由配置错误导致?


BGP路由错误会阻止数据包到达其预期的IP 地址和服务器而导致服务中断。联想到最近 Facebook、Instagram和WhatsApp服务中断均由BGP路由问题导致,一些业内人士推测可能是由于BGP配置错误导致。


3.为什么割接操作在白天进行?


为避免影响网络业务,割接操作一般都在凌晨进行,这是电信业的常识。但本次事故因“更换路由器以升级网络”引起,且事故发生时间为白天。难道有什么不得已的原因非要在白天11点进行割接操作?还是因为凌晨割接操作后,白天才发生了故障?


4.是设备问题还是人工操作失误?


路由配置可能是自动化的,也可能是人工操作,那到底是设备的问题,还是人工操作失误?


不管是设备问题,还是人为操作失误,还是缺乏备份系统,一些韩国业内人士表示,这都反映了KT在网络和流程管理上存在疏忽。


“2021 中国AIoT产业年年会”重磅来袭!

12月9日 深圳机场凯悦酒店

版权声明:“物联网智库”除发布原创干货以外,致力于优秀科技/研究/投资类文章精选、精读。部分文章推送时未能与原作者取得联系。若涉及版权问题,或由于二次转载标错了转载来源,敬请原作者联系我们。联系方式:微信wangsujing1314

往期精选

又三家!遭国安法调查,与滴滴

同为6月赴美上市公司……

史无前例?滴滴遭国安法调查,

新用户停止注册!官方回应……

上汽不接受华为自动驾驶,OPPO

曾冷嘲鸿蒙,为什么华为……

“吊打鸿蒙”or“黯然失色”?一款硬件

都没有的苹果开发者大会……

我在“别人家的学校”,看到了

智慧食堂的未来……

598亿总规划的济南泉芯也烂尾了,

“烂芯”操盘者曹山的回应能安人心吗?



浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐