全球网络频繁大规模宕机,专家警告:情况可能会更糟

随着全球对少数几家互联网基础设施巨头的依赖日益加深,大规模网络中断事件不断上演,引发从政治压力到计算机科学界的段子狂欢。

专家表示,最近“不是你一个人卡”:影响数百万用户日常服务的严重网络宕机,正变得更频繁、影响范围更广。

周二,互联网服务商 Cloudflare 崩溃,引发 X、OpenAI、Discord 等多家公司的长时间大面积瘫痪。这已经是过去一个月内第三次重大网络宕机。

尽管外界对责任归属争论不休,但两点日益明确:一方面,消费者高度依赖少数几家以“更便宜、更便捷”著称的云端基础设施公司;另一方面,当其中任何一家出现一个微小的软件漏洞或人为失误,其影响都可能呈指数级扩散,看起来就像“半个互联网被拔了电源”。

“这几次宕机堪称灾难级。”前消费者金融保护局首席技术官 Erie Meyer 表示。“这已经像我们当年被警告的 Y2K,只不过现在发生得更频繁。”

网络中断频发甚至成了计算机界的热门梗,各种调侃基础设施脆弱性的 meme 层出不穷。

这些巨型云服务公司被称为“超大规模服务商(hyperscalers)”。一旦商业模式成型,它们便能快速扩张基础设施,以低成本向全球提供服务。行业因此呈现出极度集中化,这也意味着一旦出现问题,便形成“单点故障”。

“当一家公司的漏洞就能影响整个社会,这不仅是技术问题,更是市场集中度问题。”Meyer 说。

网络宕机与互联网同龄,但从 10 月下旬起,短短数周内就发生三起大规模事件,影响范围前所未见。

第一起发生在 10 月 20 日:Amazon Web Services(AWS)故障,导致 Roblox、Fortnite、Ring 门铃摄像头等大量服务瘫痪,甚至连联网“智能床”都无法正常工作。

马萨诸塞州参议员 伊丽莎白·沃伦 在 X 上呼吁:“这是拆分大型科技公司的理由。”

“如果一家公司能让整个互联网瘫痪,那它就太大了。”

第二起发生在 10 月 29 日:微软 Azure 全球宕机,导致微软旗下大量服务在财报发布前夕全部瘫痪。两家依赖大型云服务的航空公司受波及:使用 AWS 的达美航空、以及使用 Azure 的阿拉斯加航空,均无法为乘客提供线上值机。

随后是本周二 Cloudflare 的大规模中断。公司 CEO Matthew Prince 称这是自 2019 年以来最严重的一次。

“对于客户与整个互联网造成的影响,我们深感抱歉。”Prince 在技术说明中写道。“以 Cloudflare 在互联网生态中的重要性,任何宕机都是不可接受的。我们知道今天辜负了大家。”

三家公司各自出现了不同类型的故障。

Cloudflare 起初以为遭遇大型网络攻击,最终发现是一段用于拦截机器人流量的软件代码出现“漏洞”;AWS 与微软则在配置域名系统(DNS)时遇到不同问题,导致这一互联网“电话簿”失灵。

更早前的 2024 年,一次 CrowdStrike 自动更新引发全球 Windows 系统“蓝屏死机”,瘫痪医疗、警方与航空网络,成为另一个典型案例:一个小小的软件更新错误,却引发全球连锁反应。

最终,这些事故的共同点是:一个微小的软件错误,在巨型集中式基础设施中被无限放大,导致网站与服务一个接一个地崩溃。

范德比尔特大学政策研究员、前白宫科技政策办公室副主任 Asad Ramzanali 指出,这种高度集中化已成为国家风险。

“如此多社会运转都建立在这些基础设施之上,这种集中不仅是市场失灵,也是国家安全风险。”

Akamai 云技术集团 CTO James Kretchmar 表示,技术团队永远可以降低宕机发生概率,但需要战略性地投入资源。

“工程师不是无限的。但这并不是‘无解’的问题。”

与此同时,外界对云行业加强监管的呼声也在上升。

公共利益组织 Public Citizen 的大型科技监督倡导者 J.B. Branch 呼吁政府加大审查:“每次宕机都需要调查。无论喜不喜欢,我们整个数字经济的基础设施被少数公司垄断,而这极其危险。”(原文

发表评论