17611538698
webmaster@21cto.com

一个工程师是如何搞垮 Twitter 的

资讯 0 573 2023-03-12 11:59:17

图片

Twitter 周一早上出现了一些问题。

除了点击推文中的链接不起作用,对于许多用户来说,图片无法在时间轴中加载。这种网站产生的中断大概持续了一个多小时。

在此期间,尝试单击链接时只显示一条错误消息,显示出“你当前的 API 计划不包括对此节点的访问权限。” 

图片

人们在以隐身模式访问网站或未登录时似乎也会遇到错误。还有的用户称没法访问 Twitter 账号管理工具 TweetDeck。

推特支持账号表示,“产生一些意想不到的后果的内部变化”是罪魁祸首。

图片

但事实上被告知,Twitter 只有一名现场可靠性工程师参与了该项目。据一名现任员工称,周一该工程师进行了一次“错误的配置更改,破坏了 Twitter API”。

这一变化在公司内部产生了连锁反应,导致 Twitter 的许多内部工具以及面向公众的 API 都瘫痪了。在 Slack 上,工程师们在争先恐后地解决问题时,用“废话”和“Twitter 宕机了——整个事情”的变体文来回应。 

马斯克非常愤怒。

“API 的一个小改动就会产生巨大的影响,”马斯克当天晚些时候在推特上写道,此前 Twitter 投资者马克安德森发布了一张截图,显示该公司的 API 故障正在该网站上蔓延。

马斯克说:“代码堆栈经常无缘无故地出错,非常脆弱,最终将需要重写。”

图片

不间断的裁员使twitter只有不到 550 名全职工程师

一些现任员工对这种观点表示同情,这种观点至少将 Twitter 的问题部分归咎于马斯克到该公司之前的技术债。

“Twitter 1.0 实际上有如此多的技术债,如果你做出一个改变,可能就会全部崩溃,”一位现任员工说。 

后来当马斯克接管公司时,他承诺会大幅提高网站的速度和稳定性。他与同事对现有员工的技术能力进行了筛选,最终裁掉了数千名被认为“技术”能力不够的员工。

如今,这种不间断的裁员使公司只有不到 550 名全职工程师。正如前员工从一开始就预测的那样,人员损失使 Twitter 越来越容易受到灾难性中断的影响。

周一的错误配置更改至少是 Twitter 今年第六次引人注目的服务中断:

  • 1 月 23 日,Android 用户暂时无法加载新推文或发布新推文。

  • 2 月 8 日,一条错误消息告诉用户他们“超过了发送推文的每日限制”,阻止他们发布。

  • 2 月 15 日,推文停止加载。

  • 2月18日,时间线断裂,回复消失。

  • 3 月 1 日,时间线停止工作。


“这种类型的中断变得如此频繁,以至于我认为我们都对它麻木了,”一位现任员工说。 

这些只是服务中断。其他问题,例如导致马斯克的推文在时间轴上比任何其他用户的推文更显眼的问题,也扰乱了用户。 

在许多方面,周一的停机代表了马斯克迄今为止在公司的领导力达到顶峰。为了一心一意地削减 440 亿美元的收购成本,他一直在裁员,并减少 Twitter 的免费服务。

这为单个工程师负责一个重大项目铺平了道路——一个与用户和员工都依赖的几个关键互连系统相关联的项目。 

由于手头没有多少知识全面的工作人员来恢复服务,Twitter 花了一上午的时间才解决了这个问题。“当你解雇公司 90% 的员工时,就会发生这种情况,”另一位现任员工说。 

然而,在 Twitter 的总部内部,气氛几乎是轻松的。“我们一直在笑容满面,”另一位现任员工说。

作者:场长

参考:

https://www.theverge.com/2023/3/6/23627875/twitter-outage-how-it-happened-engineer-api-shut-down

评论