甲方怒了！年付超 6800 万、云厂商说停就停、瘫痪 8 个小时

开发者部署平台 Railway 称，Google Cloud 在一次自动化操作中错误暂停其生产账号，导致 Railway 出现约 8 小时平台级故障，影响范围从 GCP 扩散到 Railway Metal 和 AWS 环境。

2026 年 5 月 20 日，Railway 发布事故报告称，5 月 19 日 22:20 UTC 至 5 月 20 日约 06:14 UTC，经历了一次平台级服务中断，持续约 8 小时。

Railway 称，故障原因是 Google Cloud 错误将其生产账号置于暂停状态，导致其托管在 GCP 上的基础设施短暂失去服务。

Railway 是一家面向开发者的应用部署平台，主要帮助用户从 GitHub 代码库自动完成云端部署。

《The Register》报道称，Railway 每年在 Google Cloud 上的支出超过 1000 万美元（6805 万元人民币），但这次账号暂停仍“毫无预警”发生。

Railway 的解决方案工程师 Angelo Saraceno 表示，该公司在 22:00 UTC 前后发现了问题。他说，该公司的资源似乎被删除了，完全消失了。谷歌随后解释道，它暂停了 Railway 的帐户，导致其资源不可见。

他补充道：“在谷歌负责与我们对接的联系人感到困惑，客户们非常愤怒。”

颇具讽刺意味的是，在 2024 年，Railway 决定将其大部分基础设施迁移到托管服务，此前谷歌“造成了一大堆问题，对我们的业务构成了事关存亡的威胁”。

然而在 2025 年，谷歌云再次出现问题，Railway 的服务再次受到影响，这些问题又浮出水面。

但 Railway 仍然将其控制平面留在谷歌云上，仍然依赖运行在谷歌云端的数据库。这些资源使得该公司每年在谷歌云上花费数千万美元。

然而 Saraceno 表示，当此次事件发生时，谷歌的支持团队一个小时后才介入。

“我们非常愤怒，目前仍在努力了解所有细节，“他说道，随后提出了一种说法，认为 Railway 可能触发了某项强制执行规则。

这次故障最初影响 Railway 的 Dashboard、API、控制面、数据库，以及部署在 Google Cloud 上的计算资源。

用户很快遇到 503 错误，提示包括 “no healthy upstream” 和 “unconditional drop overload”，同时出现登录失败、无法访问控制台等问题。

所有托管在 Google Cloud compute 上的工作负载也被下线。

更严重的是，故障没有停留在 GCP 内部。

Railway 称，其自有 Railway Metal 和 AWS burst-cloud 环境中的工作负载一开始仍在运行，但 Railway 的边缘代理依赖托管在 Google Cloud 上的控制面 API 来填充路由表。

随着缓存路由过期，Metal 和 AWS 上的工作负载也开始无法解析，返回 404。事故高峰期，Railway 所有区域的工作负载均变得不可访问。

Railway 的时间线显示：

5 月 19 日 22:10 UTC，自动监控发现 API 健康检查失败；

22:19，团队确认根因是 Google Cloud 暂停了 Railway 的生产账号；

22:22，Railway 向 Google Cloud 提交 P0 工单，并联系 GCP 账号经理；

22:29，账号访问恢复，但计算实例仍处于停止状态，持久磁盘也不可访问。

账号恢复并不等于服务恢复，后续还需要逐层恢复磁盘、网络、计算实例和边缘流量。

根据 Railway 的说法，这次暂停来自 Google Cloud 的一次错误自动化动作，并且影响了 Google Cloud 内部的多个账号。

Railway 称，由于这是一次平台级动作，个别客户在限制生效前没有收到主动通知。

Railway 还表示，恢复过程被拉长的原因之一，是持久磁盘、计算实例和网络都需要分别恢复，而不是账号访问恢复后自动全部恢复。

事故恢复过程中还出现了二次影响。

Railway 称，由于 GCP 故障清空了部分缓存，Railway 对 GitHub OAuth 和 webhook 的请求量短时间内激增，随后遭到 GitHub 限流，导致部分用户继续无法登录，构建也受到阻碍。

Railway 还一度暂停部署，以避免大量排队任务同时执行后再次压垮系统。

Railway 在事故报告中承认，虽然外部触发点来自 Google Cloud，但公司仍需为自身架构选择负责。Railway 计划立即移除网络控制面对 GCP 的硬依赖，扩展高可用数据库分片至 AWS 和 Railway Metal，并将 Google Cloud 服务从数据平面的关键路径中移出，仅保留为次级或故障转移用途。

一个年花费超过 1000 万美元的客户，在关键基础设施仍依赖单一上游控制面时，依然可能被一次自动化账号动作拖入全平台故障。对 Railway 来说，问题已经不只是多云部署，而是控制面、路由发现和数据库仲裁是否真正摆脱单点依赖。

DC娱乐网

甲方怒了！年付超 6800 万、云厂商说停就停、瘫痪 8 个小时

热门分类

甲方怒了！年付超 6800 万、云厂商说停就停、瘫痪 8 个小时

猜你喜欢

AI倒是把几个高价值点拉评论了，但地图变形过于严重……

全世界存储公司营收

ClaudeCode必装的10个核心Skill（全功能速览）1.Su

9大中国企业！1、第一名：华为2、第二名：中兴3、第三名：比亚迪4、第

了不起的华为！中华有为！

AI算力：细分全景图！1.光通信（核心）2.存储芯片3.PCB与上游材料4.服务

为什么华为要靠低端机全面回归？原因很简单：一、是芯片供给解决了，之前是优

热门分类