Coinbase 承诺在重大交易所事件后进行全面根本原因分析

AWS 基础设施故障和 Kafka 恢复问题暂时中断了 Coinbase 的交易。

Coinbase 于 5 月 7 日遭遇重大服务中断,导致多个平台的交易、交易所访问以及客户余额更新受到影响。问题持续了数小时,波及现货市场、衍生品、Prime 服务以及国际交易业务。工程师随后将原因追溯到美国一处 AWS 数据中心内部的冷却系统故障。Coinbase 表示,客户资金在事件期间保持安全,且未发生数据丢失。

Kafka 恢复问题加剧 Coinbase 中断

Coinbase 披露称,监控系统最先于协调世界时(UTC)约 23:50 开始检测到级联报价失败。随后不久发生了多起 Sev1 事件,促使工程团队启动应急响应流程。随着 AWS us-east-1 中一部分机架内的温度升高,与交易所核心基础设施相关的内部系统开始出现故障。

昨天 @coinbase 经历了持续数小时的服务中断,影响了交易、交易所访问以及余额更新。以下是我们 Coinbase 工程团队对发生了什么、我们如何恢复、以及我们正在处理的问题的初步解读。

大约在 2026-05-07 UTC 23:50,我们的…

— rob (@rwitoff) 2026 年 5 月 8 日

据 Coinbase 工程师称,硬件故障打击了与交易所撮合引擎相连的系统。该引擎负责处理订单,并维护 Coinbase 各市场的订单簿。受影响设施内部的基础设施问题导致只有部分节点保持可用。因此,该集群未能达到法定人数(quorum),从而暂时阻止零售及机构用户交易。

工程师还遇到了与用于内部消息传递的分布式 Kafka 集群相关的复杂情况。Coinbase 表示,这些集群每天处理数 TB 的数据,并被设计为在数据中心中断期间保持运行。然而在此次事件中,恢复保障失效,迫使团队将分区手动恢复到替换的硬件代理(brokers)上。

专用硬件故障减缓恢复流程

在 Kafka 复制恢复期间,客户的余额更新出现延迟。Coinbase 表示,一旦系统追上进度,余额将自动同步。公司代表补充称,事件期间没有客户或交易数据消失。

自动化恢复工具从约 10 个与受影响区域相关的 Kubernetes 集群中抽走(卸载)了工作负载。在工程师隔离问题后,绝大多数内部服务在约 30 分钟内恢复。

由于交易所撮合引擎以及 Kafka 基础设施这两类系统都依赖专用硬件与存储配置,因此它们的恢复耗时更长。

在环境稳定后,Coinbase 分阶段重新开启市场。交易首先切换到仅取消模式(cancel-only mode),随后团队对产品状态进行审计。之后市场进入拍卖模式(auction mode),在整个交易所恢复全面交易之前先完成该阶段。

Coinbase 表示多小时平台中断期间未丢失数据

Coinbase 承认,其架构中有部分关键交易基础设施集中在单一可用区。工程师表示,已为故障切换场景部署了备用系统,尽管如此,隔离措施在此次事件中未能发挥作用,导致中断持续时间以及影响范围超出了预期限制。

公司高管称赞了恢复过程中内部协调工作。工程与值班(on-call)团队据称在受限基础设施条件下,遵循了既定的灾难恢复程序,同时对修复进行测试并完成验证。

Coinbase 向在事件中暂时失去账户访问权限和交易服务的客户表示道歉。高管表示,完整的根本原因分析将在未来几周发布,并将同步推出计划中的可靠性改进措施,旨在防止类似故障再次发生。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论