全球网络频繁大规模宕机，专家警告：情况可能会更糟

随着全球对少数几家互联网基础设施巨头的依赖日益加深，大规模网络中断事件不断上演，引发从政治压力到计算机科学界的段子狂欢。

专家表示，最近“不是你一个人卡”：影响数百万用户日常服务的严重网络宕机，正变得更频繁、影响范围更广。

周二，互联网服务商 Cloudflare 崩溃，引发 X、OpenAI、Discord 等多家公司的长时间大面积瘫痪。这已经是过去一个月内第三次重大网络宕机。

尽管外界对责任归属争论不休，但两点日益明确：一方面，消费者高度依赖少数几家以“更便宜、更便捷”著称的云端基础设施公司；另一方面，当其中任何一家出现一个微小的软件漏洞或人为失误，其影响都可能呈指数级扩散，看起来就像“半个互联网被拔了电源”。

“这几次宕机堪称灾难级。”前消费者金融保护局首席技术官 Erie Meyer 表示。“这已经像我们当年被警告的 Y2K，只不过现在发生得更频繁。”

网络中断频发甚至成了计算机界的热门梗，各种调侃基础设施脆弱性的 meme 层出不穷。

这些巨型云服务公司被称为“超大规模服务商（hyperscalers）”。一旦商业模式成型，它们便能快速扩张基础设施，以低成本向全球提供服务。行业因此呈现出极度集中化，这也意味着一旦出现问题，便形成“单点故障”。

“当一家公司的漏洞就能影响整个社会，这不仅是技术问题，更是市场集中度问题。”Meyer 说。

网络宕机与互联网同龄，但从 10 月下旬起，短短数周内就发生三起大规模事件，影响范围前所未见。

第一起发生在 10 月 20 日：Amazon Web Services（AWS）故障，导致 Roblox、Fortnite、Ring 门铃摄像头等大量服务瘫痪，甚至连联网“智能床”都无法正常工作。

马萨诸塞州参议员伊丽莎白·沃伦在 X 上呼吁：“这是拆分大型科技公司的理由。”

“如果一家公司能让整个互联网瘫痪，那它就太大了。”

第二起发生在 10 月 29 日：微软 Azure 全球宕机，导致微软旗下大量服务在财报发布前夕全部瘫痪。两家依赖大型云服务的航空公司受波及：使用 AWS 的达美航空、以及使用 Azure 的阿拉斯加航空，均无法为乘客提供线上值机。

随后是本周二 Cloudflare 的大规模中断。公司 CEO Matthew Prince 称这是自 2019 年以来最严重的一次。

“对于客户与整个互联网造成的影响，我们深感抱歉。”Prince 在技术说明中写道。“以 Cloudflare 在互联网生态中的重要性，任何宕机都是不可接受的。我们知道今天辜负了大家。”

三家公司各自出现了不同类型的故障。

Cloudflare 起初以为遭遇大型网络攻击，最终发现是一段用于拦截机器人流量的软件代码出现“漏洞”；AWS 与微软则在配置域名系统（DNS）时遇到不同问题，导致这一互联网“电话簿”失灵。

更早前的 2024 年，一次 CrowdStrike 自动更新引发全球 Windows 系统“蓝屏死机”，瘫痪医疗、警方与航空网络，成为另一个典型案例：一个小小的软件更新错误，却引发全球连锁反应。

最终，这些事故的共同点是：一个微小的软件错误，在巨型集中式基础设施中被无限放大，导致网站与服务一个接一个地崩溃。

范德比尔特大学政策研究员、前白宫科技政策办公室副主任 Asad Ramzanali 指出，这种高度集中化已成为国家风险。

“如此多社会运转都建立在这些基础设施之上，这种集中不仅是市场失灵，也是国家安全风险。”

Akamai 云技术集团 CTO James Kretchmar 表示，技术团队永远可以降低宕机发生概率，但需要战略性地投入资源。

“工程师不是无限的。但这并不是‘无解’的问题。”

与此同时，外界对云行业加强监管的呼声也在上升。

公共利益组织 Public Citizen 的大型科技监督倡导者 J.B. Branch 呼吁政府加大审查：“每次宕机都需要调查。无论喜不喜欢，我们整个数字经济的基础设施被少数公司垄断，而这极其危险。”（原文）