Coinbase 承诺在重大交易所事件后进行全面根本原因分析

2026-05-09 16:56:31

AWS 基础设施故障和 Kafka 恢复问题暂时中断了 Coinbase 的交易。

Coinbase 于 5 月 7 日遭遇重大服务中断，导致多个平台的交易、交易所访问以及客户余额更新受到影响。问题持续了数小时，波及现货市场、衍生品、Prime 服务以及国际交易业务。工程师随后将原因追溯到美国一处 AWS 数据中心内部的冷却系统故障。Coinbase 表示，客户资金在事件期间保持安全，且未发生数据丢失。

Kafka 恢复问题加剧 Coinbase 中断

Coinbase 披露称，监控系统最先于协调世界时（UTC）约 23:50 开始检测到级联报价失败。随后不久发生了多起 Sev1 事件，促使工程团队启动应急响应流程。随着 AWS us-east-1 中一部分机架内的温度升高，与交易所核心基础设施相关的内部系统开始出现故障。

昨天 @coinbase 经历了持续数小时的服务中断，影响了交易、交易所访问以及余额更新。以下是我们 Coinbase 工程团队对发生了什么、我们如何恢复、以及我们正在处理的问题的初步解读。

大约在 2026-05-07 UTC 23:50，我们的…

— rob (@rwitoff) 2026 年 5 月 8 日

据 Coinbase 工程师称，硬件故障打击了与交易所撮合引擎相连的系统。该引擎负责处理订单，并维护 Coinbase 各市场的订单簿。受影响设施内部的基础设施问题导致只有部分节点保持可用。因此，该集群未能达到法定人数（quorum），从而暂时阻止零售及机构用户交易。

工程师还遇到了与用于内部消息传递的分布式 Kafka 集群相关的复杂情况。Coinbase 表示，这些集群每天处理数 TB 的数据，并被设计为在数据中心中断期间保持运行。然而在此次事件中，恢复保障失效，迫使团队将分区手动恢复到替换的硬件代理（brokers）上。

专用硬件故障减缓恢复流程

在 Kafka 复制恢复期间，客户的余额更新出现延迟。Coinbase 表示，一旦系统追上进度，余额将自动同步。公司代表补充称，事件期间没有客户或交易数据消失。

自动化恢复工具从约 10 个与受影响区域相关的 Kubernetes 集群中抽走（卸载）了工作负载。在工程师隔离问题后，绝大多数内部服务在约 30 分钟内恢复。

由于交易所撮合引擎以及 Kafka 基础设施这两类系统都依赖专用硬件与存储配置，因此它们的恢复耗时更长。

在环境稳定后，Coinbase 分阶段重新开启市场。交易首先切换到仅取消模式（cancel-only mode），随后团队对产品状态进行审计。之后市场进入拍卖模式（auction mode），在整个交易所恢复全面交易之前先完成该阶段。

Coinbase 表示多小时平台中断期间未丢失数据

Coinbase 承认，其架构中有部分关键交易基础设施集中在单一可用区。工程师表示，已为故障切换场景部署了备用系统，尽管如此，隔离措施在此次事件中未能发挥作用，导致中断持续时间以及影响范围超出了预期限制。

公司高管称赞了恢复过程中内部协调工作。工程与值班（on-call）团队据称在受限基础设施条件下，遵循了既定的灾难恢复程序，同时对修复进行测试并完成验证。

Coinbase 向在事件中暂时失去账户访问权限和交易服务的客户表示道歉。高管表示，完整的根本原因分析将在未来几周发布，并将同步推出计划中的可靠性改进措施，旨在防止类似故障再次发生。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
99.41万热度
#
BTC重返8万
5944.28万热度
#
日本国债上链24小时交易
190.25万热度
#
韩国加密征税倒计时
255.36万热度
#
Polymarket每日热点
86.78万热度

Coinbase 承诺在重大交易所事件后进行全面根本原因分析

Kafka 恢复问题加剧 Coinbase 中断

专用硬件故障减缓恢复流程

Coinbase 表示多小时平台中断期间未丢失数据

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶