10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Coinbase 承诺在重大交易所事件后进行全面根本原因分析
AWS 基础设施故障和 Kafka 恢复问题暂时中断了 Coinbase 的交易。
Coinbase 于 5 月 7 日遭遇重大服务中断,导致多个平台的交易、交易所访问以及客户余额更新受到影响。问题持续了数小时,波及现货市场、衍生品、Prime 服务以及国际交易业务。工程师随后将原因追溯到美国一处 AWS 数据中心内部的冷却系统故障。Coinbase 表示,客户资金在事件期间保持安全,且未发生数据丢失。
Kafka 恢复问题加剧 Coinbase 中断
Coinbase 披露称,监控系统最先于协调世界时(UTC)约 23:50 开始检测到级联报价失败。随后不久发生了多起 Sev1 事件,促使工程团队启动应急响应流程。随着 AWS us-east-1 中一部分机架内的温度升高,与交易所核心基础设施相关的内部系统开始出现故障。
据 Coinbase 工程师称,硬件故障打击了与交易所撮合引擎相连的系统。该引擎负责处理订单,并维护 Coinbase 各市场的订单簿。受影响设施内部的基础设施问题导致只有部分节点保持可用。因此,该集群未能达到法定人数(quorum),从而暂时阻止零售及机构用户交易。
工程师还遇到了与用于内部消息传递的分布式 Kafka 集群相关的复杂情况。Coinbase 表示,这些集群每天处理数 TB 的数据,并被设计为在数据中心中断期间保持运行。然而在此次事件中,恢复保障失效,迫使团队将分区手动恢复到替换的硬件代理(brokers)上。
专用硬件故障减缓恢复流程
在 Kafka 复制恢复期间,客户的余额更新出现延迟。Coinbase 表示,一旦系统追上进度,余额将自动同步。公司代表补充称,事件期间没有客户或交易数据消失。
自动化恢复工具从约 10 个与受影响区域相关的 Kubernetes 集群中抽走(卸载)了工作负载。在工程师隔离问题后,绝大多数内部服务在约 30 分钟内恢复。
由于交易所撮合引擎以及 Kafka 基础设施这两类系统都依赖专用硬件与存储配置,因此它们的恢复耗时更长。
在环境稳定后,Coinbase 分阶段重新开启市场。交易首先切换到仅取消模式(cancel-only mode),随后团队对产品状态进行审计。之后市场进入拍卖模式(auction mode),在整个交易所恢复全面交易之前先完成该阶段。
Coinbase 表示多小时平台中断期间未丢失数据
Coinbase 承认,其架构中有部分关键交易基础设施集中在单一可用区。工程师表示,已为故障切换场景部署了备用系统,尽管如此,隔离措施在此次事件中未能发挥作用,导致中断持续时间以及影响范围超出了预期限制。
公司高管称赞了恢复过程中内部协调工作。工程与值班(on-call)团队据称在受限基础设施条件下,遵循了既定的灾难恢复程序,同时对修复进行测试并完成验证。
Coinbase 向在事件中暂时失去账户访问权限和交易服务的客户表示道歉。高管表示,完整的根本原因分析将在未来几周发布,并将同步推出计划中的可靠性改进措施,旨在防止类似故障再次发生。