马斯克 硬核迁移服务器

DevOps技术栈

共 8849字,需浏览 18分钟

 ·

2023-10-24 09:33

原文链接:https://weibo.com/1727858283/NkRTyymTQ

马斯克传里面有一个故事,去年底马斯克接手 Twitter 后为了省钱,要将萨克拉门托的服务器搬到波特兰,IT 经理跟马斯克汇报说要 9 个月,马斯克觉得这时间太长了,一个月就能搞定,但 IT 经理坚持不妥协,于是他亲自跑到机房拔电源租卡车搬服务器。

《伊隆・马斯克亲自搬运服务器,彰显他在 X 公司(此前为 Twitter)的 “狂热紧迫感”》

* 此内容改编自 Walter Isaacson 本月出版的传记《伊隆・马斯克》。

“这个时间表看起来像是我会认为勉强可以接受的吗?” 马斯克问道。“显然不是。如果计划时间长,那就是错的。”

那是 12 月 22 日深夜,位于 X 公司 10 楼的会议室,马斯克正在与两名基础设施经理进行紧张的交谈。他们之前与他的接触并不多,尤其是在他心情不好时。

其中一人试图解释问题。位于萨克拉门托的一家数据服务公司允许 X 公司延长其服务器租约,以便在 2023 年有序迁出。“但今天早上”,这名显得有些紧张的经理告诉马斯克,“他们回来告诉我们说这个计划不再适用,因为他们认为我们在财务上不再稳健。”

这个设施每年花费 X 公司超过 1 亿美元。马斯克想通过将服务器迁移到 X 公司在俄勒冈州波特兰的其他设施来节省这笔费用。另一位经理表示这项工作不能立即进行。她平静地说:“我们至少需要六到九个月的时间,因为萨克拉门托仍然需要服务流量。”

多年来,马斯克经常面临着他认为的必要与别人告诉他的可能之间的选择。结果几乎总是一样的。他沉默了几秒钟,然后宣布:“你们有 90 天时间来完成这项任务。如果你们做不到,你们可以辞职。”

这名经理开始详细解释迁移服务器到波特兰的障碍。“机架密度不同,电力密度也不同,” 她说。“所以机房需要进行升级。” 她开始详细介绍更多,但被马斯克打断。

“这让我的大脑感到压抑,” 他说。

“对不起,我没有这个意思,” 她平稳地回答。

“你知道头爆炸的表情符号吗?” 他问她。“我的脑袋现在就是这个感觉。真是一堆屁话。波特兰明显有大量的空间,从一个地方迁移到另一个地方简直小菜一碟。”

当 X 公司的经理们再次试图解释时,马斯克打断了他们。“你们能不能去我们的服务器中心,然后给我发视频?” 他问。

那是圣诞节前的三天,经理承诺一周后提供视频。“不,明天,” 马斯克命令。“我曾经自己建设过服务器中心,我可以判断是否还可以放更多的服务器。这就是为什么我问你们是否真的去过那些设施。如果你们没有去过,那你们说的就是胡说八道。”

SpaceX 和 Tesla 的成功是因为马斯克不懈地推动他的团队更加敏捷、有创造力,并发起突击冲刺以解决所有障碍。这就是他们如何在弗里蒙特快速组装汽车生产线,并在得克萨斯州的沙漠中建立试验设施,以及在卡纳维拉尔角使用旧零件建造发射场。

“你们需要做的就是将服务器迁移到波特兰,” 他说。“如果超过 30 天,我会很震惊。” 他停顿了一下,重新计算。“找一家搬家公司,运输电脑需要一个星期,然后再花一个星期来连接它们。两周。就应该这样。”

所有人都默不作声。但马斯克仍在发火。“如果你们租了一个 U-Haul (一家租车公司),你们可能自己就能完成。” 两位 X 公司的经理看着他,试图判断他是否是认真的。马斯克的两位亲密助手 Steve Davis 和 Omead Afshar 也在场。他们多次看到过他这样,知道他可能真的这么认为。

“为什么我们现在不去做?”James Musk 提议。

James 和他的弟弟 Andrew,是马斯克的小堂弟,12 月 23 日,也就是那次令人沮丧的关于如何迁移服务器的基础设施会议的次日,与他一同从旧金山飞往奥斯汀。他们原计划去塔霍度过圣诞节,但那天伊隆邀请他们去奥斯汀。

James 有点犹豫,他精疲力竭,不想再加重压力,但 Andrew 说服他们应该去。所以他们最后坐在飞机上听伊隆抱怨服务器的事。

当飞机飞过拉斯维加斯时,James 提出了一个建议,他们现在就可以移动服务器。这是马斯克喜欢的那种冲动、不切实际的建议。尽管已经是深夜,但他让飞行员转向,他们重新返回萨克拉门托。

他们着陆后能租到的唯一一辆车是丰田 Corolla。他们不确定晚上如何进入数据中心,但一个名为 Alex 的来自乌兹别克斯坦的 X 员工还在那里。他欣然让他们进入,并带领他们参观。

这个设施也为许多其他公司提供了服务器存放空间,非常安全,进入每个金库都需要进行视网膜扫描。乌兹别克斯坦的 Alex 帮助他们进入了 X 公司的金库,那里有大约 5200 个冰箱大小的机架,每个机架有 30 台电脑。

“这些东西看起来并不难移动,” 伊隆宣布。这是一个扭曲现实的说法,因为每个机架重约 2500 磅,高 8 英尺。

“你们需要雇佣承包商来抬起地板面板,”Alex 说。“它们需要用吸盘来抬起。” 他说,还需要另一组承包商去拆除电缆和地震杆。

马斯克转向他的保安,借了一把小刀。使用它,他能够抬起地板上的一个通风口,这让他可以撬开地板面板。然后他爬到服务器下面,用小刀撬开了一个电箱,拔掉了服务器插头,等着看会发生什么。没什么异常发生。服务器已经准备好迁移。

“这看起来并不难,” 当他这么说时,Alex 和其他人都目瞪口呆地看着他。此刻的马斯克完全兴奋起来。他大声笑说,这就像是《碟中谍》的萨克拉门托版。

第二天 —— 圣诞前夜,马斯克召集了增援。Ross Nordeen,与他的朋友 James 在 Tesla 工作,从旧金山驱车而来。他在联合广场的 Apple Store 花了 2000 美元,买下了所有的 AirTags,这样服务器在迁移过程中就可以被跟踪。然后他去了家得宝,花了 2500 美元买了扳手、断线钳、头灯和拧下地震螺栓所需的工具。

Steve Davis,马斯克的忠诚副手,找人租了一辆半挂车,并安排了搬家车。其他来自 SpaceX 的援助队员也已到达。这些服务器机架都有轮子,所以团队能够断开其中四个并将它们推到待命的卡车上。这表明,这五千两百多个服务器可能在几天内全部移动。“伙计们干得好!” 马斯克兴高采烈地说。

该设施的其他工作人员带着混合的惊奇和恐惧看着。马斯克和他的团队在没有用箱子包装或用防护材料包裹的情况下,直接推动服务器,然后使用店里买来的绑带固定它们在卡车上。“我从未装载过半挂车,”James 承认。Ross 称其为 “令人恐惧”。这就像清理衣橱,“但里面的东西都是至关重要的。”

下午 3 点,当他们把四台服务器装到卡车上后,这一消息传到了拥有并管理数据中心的 NTT 公司的高层。他们下令马斯克的团队停止行动。马斯克的表情中混杂着欢乐和愤怒,这是他经常伴随着他的狂热激进时出现的情绪。他给存储部门的 CEO 打电话,CEO 告诉他,在没有专家的情况下,是不可能移动服务器机架的。“屁话,” 马斯克反驳。“我们已经装了四台到半挂车上了。”

这位 CEO 随后告诉他,一些地板承受不了超过 500 磅的压力,所以滚动一个 2000 磅的服务器会造成损坏。马斯克回应说,服务器有四个轮子,所以任何一个点上的压力只有 500 磅。“这家伙数学真的不太行,” 马斯克告诉他的队友。

在破坏了 NTT 管理层的圣诞前夜,并使他们在明年可能损失超过 1 亿美元的收入后,马斯克表示同情,并说他会暂停迁移服务器两天。但他警告说,圣诞节后他们会继续。

圣诞节后,Andrew 和 James 返回萨克拉门托,看看他们还能移动多少服务器。他们没有带足够的衣服,所以去了沃尔玛买了牛仔裤和 T 恤。

NTT 希望他们使用的搬运承包商收费是每小时 200 美元。所以 James 在 Yelp 上找到了一个名为 Extra Care Movers 的公司,他们只需要十分之一的费用。这家看起来有些乱七八糟的公司将低成本的理念发挥到极致。老板曾在街上流浪,后来有了孩子,他正在试图重整旗鼓。他没有银行账户,所以 James 使用 PayPal 支付给他。

第二天,工作团队希望付现金,所以 James 去银行从他的个人账户中取出了 13,000 美元。两名团队成员没有身份证明,这使得他们很难进入设施。但他们用勤奋弥补了这一点。“每多移动一台服务器,你们可以得到一美元的小费,”James 在某个时刻宣布。从那时起,每当他们将新的服务器装到卡车上,工人们都会问他们现在装了多少。

服务器上有用户数据,James 最初并没有意识到,出于隐私原因,它们在迁移前应该被彻底擦除。“当我们知道这个时候,服务器已经被拔掉并推出去,所以我们不可能再推回去,插入,然后再擦除,” 他说。此外,擦除软件也不能工作。“靠,我们怎么办?” 他问。伊隆建议他们锁住卡车并进行追踪。

所以 James 派人到家得宝买了一些大的挂锁,他们将组合代码发送到波特兰,以便卡车可以在那里被打开。“我简直不敢相信它起作用了,”James 说。“他们都安全地到达了波特兰。”

到这周结束时,他们已经使用了萨克拉门托所有可用的卡车。尽管该地区受到了雨的袭击,他们在三天内移动了 700 多个机架。该设施之前的记录是一个月移动 30 台。这仍然留下了大量的服务器在设施中,但这群人已经证明了它们可以被快速移动。其余的部分在 1 月份由 X 公司的基础设施团队处理。

这一切听起来都很激动人心和鼓舞人心,对吧?这是马斯克大胆和有创意的方法的一个例子!但与所有关于马斯克的事情一样,这也并非那么简单。这也是他鲁莽、对反驳的不耐烦和他恐吓人们的一个例子。一个星期前,X 公司的基础设施工程师在那次令人头疼的会议中试图解释为什么快速关闭萨克拉门托中心会有问题,但他打断了他们。他在忽略否定者时有很好的记录。但并不完美。

在接下来的两个月里,X 公司不稳定。服务器的缺乏导致了多次系统崩溃,包括当马斯克为总统候选人 Ron DeSantis 主持 Twitter Spaces 时。到 2023 年 3 月,马斯克会承认:“回头看,整个萨克拉门托的关停是一个错误。有人告诉我我们的数据中心有冗余。我不知道的是,我们有 70,000 个硬编码的引用指向萨克拉门托。由此导致的问题至今仍然存在。”

在 Tesla 和 SpaceX,他最有价值的助手已经学会了如何避开他的坏主意,并给他逐渐透露不受欢迎的信息,但 X 公司的老员工不知道该怎么处理他。也就是说,X 公司还活着。萨克拉门托的事件向 X 公司的员工展示了,当他谈到需要狂热的紧迫感时,他是认真的。

Walter Isaacson 是 CNBC 的撰稿人,他还写过关于伊隆・马斯克、Jennifer Doudna、Leonardo da Vinci、Steve Jobs、Albert Einstein、Benjamin Franklin 和 Henry Kissinger 的传记。他在 Tulane 大学教授历史,曾是 Time 杂志的编辑和 CNN 的 CEO。

相关链接:

  • https://twitter.com/thecat/status/1705860673149059115
  • https://www.cnbc.com/2023/09/11/elon-musk-moved-twitter-servers-himself-in-the-night-new-biography-details-his-maniacal-sense-of-urgency.html

       
       
往期推荐

 

             
             
              
              
                 
                 


   
   
       
       
         
         

           
           

点亮,服务器三年不宕机

浏览 1595
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报