Coinbase обещает полный анализ причин после крупного инцидента на бирже

Отказы инфраструктуры AWS и проблемы с восстановлением Kafka временно приостановили торговлю на Coinbase.

Coinbase столкнулась с крупным сбоем сервиса 7 мая, который нарушил торговлю, доступ к бирже и обновление балансов клиентов на нескольких платформах. Проблемы затронули спотовые рынки, деривативы, услуги Prime и международные торговые операции на несколько часов. Позже инженеры обнаружили, что причина заключалась в сбое системы охлаждения внутри дата-центра AWS в Соединённых Штатах. Coinbase заявила, что средства клиентов остались в безопасности, и данные во время инцидента не были утеряны.

Проблемы с восстановлением Kafka усугубили сбой Coinbase

Coinbase сообщила, что системы мониторинга впервые обнаружили каскадные сбои котировок примерно в 23:50 по UTC. Вскоре после этого последовали несколько инцидентов уровня Sev1, что вызвало экстренные меры реагирования команд инженеров. Внутренние системы, связанные с основной инфраструктурой биржи, начали выходить из строя по мере повышения температуры внутри части стоек, размещённых в AWS us-east-1.

Вчера @coinbase пережила многос часовое нарушение сервиса, затронувшее торговлю, доступ к бирже и обновление балансов. Вот наш первоначальный анализ от инженерной команды Coinbase о том, что произошло, как мы восстановились и что мы исправляем.

Около 23:50 UTC 07.05.2026 наши…

— rob (@rwitoff) 8 мая 2026

По словам инженеров Coinbase, сбои аппаратного обеспечения затронули системы, связанные с механизмом сопоставления ордеров биржи. Этот механизм обрабатывает заказы и поддерживает книги ордеров на рынках Coinbase. Проблемы инфраструктуры внутри пострадавшего объекта привели к тому, что работало лишь часть узлов. В результате кластер не смог достичь кворума, что временно заблокировало торговлю для розничных и институциональных пользователей.

Инженеры также столкнулись с осложнениями, связанными с распределёнными кластерами Kafka, используемыми для внутренней передачи сообщений. Coinbase заявила, что эти кластеры обрабатывают несколько терабайт данных ежедневно и были спроектированы так, чтобы оставаться работоспособными во время сбоя дата-центра. Гарантии восстановления не сработали во время инцидента, из-за чего командам пришлось вручную восстанавливать разделы на запасных аппаратных брокерах.

Отказ выделенного оборудования замедляет процесс восстановления

Пользователи заметили задержки в обновлении балансов, пока происходило восстановление репликации Kafka. Coinbase заявила, что балансы будут автоматически синхронизированы, как только системы догонят. Представители компании добавили, что во время сбоя ни данные клиентов, ни транзакции не были утеряны.

Автоматические инструменты восстановления разгрузили рабочие нагрузки примерно с 10 кластеров Kubernetes, связанных с пострадавной зоной. Большинство внутренних сервисов вернулись к работе примерно за 30 минут после изоляции проблемы инженерами.

Восстановление заняло больше времени для систем, напрямую связанных с механизмом сопоставления ордеров и инфраструктурой Kafka, поскольку обе полагались на выделенное оборудование и конфигурации хранения данных.

После стабилизации среды Coinbase поэтапно открыл рынки. Сначала торговля перешла в режим отмены ордеров, после чего команды проверили состояние продуктов. Затем рынки перешли в режим аукциона, прежде чем полностью возобновилась торговля на бирже.

Coinbase заявляет, что данные во время многосуточного сбоя платформы не были утеряны

Coinbase признала, что часть её архитектуры сосредоточила критическую инфраструктуру биржи в одном зоне доступности. Инженеры заявили, что для сценариев отказа были подготовлены резервные системы, однако меры изоляции не сработали во время события. Это увеличило продолжительность и масштаб распространения сбоя за пределы запланированных лимитов.

Руководство компании похвалило внутреннюю координацию во время процесса восстановления. Инженеры и дежурные команды, по сообщениям, следовали установленным процедурам восстановления после аварий, тестируя и проверяя исправления в условиях ограниченной инфраструктуры.

Coinbase принесла извинения клиентам, которые временно потеряли доступ к своим аккаунтам и торговым услугам. Руководство заявило, что полное расследование причин инцидента будет опубликовано в ближайшие недели, а также планируются улучшения надежности, направленные на предотвращение подобных сбоев.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить