Coinbase обіцяє повний аналіз причин після великого інциденту на біржі

Збої у інфраструктурі AWS та проблеми з відновленням Kafka тимчасово зупинили торгівлю на Coinbase.

Coinbase зазнав серйозної зупинки сервісу 7 травня, яка порушила торгівлю, доступ до біржі та оновлення балансів клієнтів на кількох платформах. Проблеми торкнулися спотових ринків, деривативів, Prime-сервісів та міжнародних операцій з торгівлі протягом кількох годин. Пізніше інженери з’ясували, що причина полягала у несправності системи охолодження всередині дата-центру AWS у Сполучених Штатах. Coinbase заявив, що кошти клієнтів залишилися в безпеці, а дані не були втрачені під час інциденту.

Проблеми з відновленням Kafka поглиблюють збої Coinbase

Coinbase повідомив, що системи моніторингу вперше виявили каскадні відмови котирувань приблизно о 23:50 за UTC. Незабаром після цього трапилися кілька інцидентів рівня Sev1, що спричинило екстрені заходи реагування команд інженерів. Внутрішні системи, пов’язані з основною інфраструктурою біржі, почали виходити з ладу через підвищення температури всередині підмножини стійок, розміщених у AWS us-east-1.

Вчора @coinbase зазнав багатогодинної зупинки сервісу, що вплинула на торгівлю, доступ до біржі та оновлення балансів. Ось наш перший аналіз від інженерів Coinbase щодо того, що сталося, як ми відновилися і що ми виправляємо.

О 23:50 UTC 2026-05-07 наші…

— rob (@rwitoff) 8 травня 2026

Згідно з інженерами Coinbase, несправності апаратного забезпечення вразили системи, підключені до механізму співставлення ордерів біржі. Цей механізм обробляє ордери та підтримує книги ордерів на ринках Coinbase. Інфраструктурні проблеми всередині ураженого об’єкта залишили в роботі лише частину вузлів. В результаті кластер не зміг досягти кворуму, тимчасово заблокувавши торгівлю для роздрібних та інституційних користувачів.

Інженери також стикнулися з ускладненнями, пов’язаними з розподіленими кластерами Kafka, які використовуються для внутрішніх повідомлень. Coinbase повідомив, що ці кластери обробляють кілька терабайт даних щодня і були спроектовані так, щоб залишатися працездатними під час збоїв у дата-центрі. Гарантії відновлення не спрацювали під час інциденту, змусивши команди вручну відновлювати розділи на запасних апаратних брокерах.

Відновлення з використанням спеціалізованого апаратного забезпечення сповільнює процес

Клієнти зазнали затримок у оновленні балансів, поки реплікація Kafka відновлювалася. Coinbase повідомив, що баланси будуть автоматично синхронізовані, коли системи наздоженуть. Представники компанії додали, що жодні дані клієнтів або транзакцій не зникли під час збою.

Автоматизовані інструменти відновлення зняли навантаження з приблизно 10 кластерів Kubernetes, пов’язаних із ураженою зоною. Більшість внутрішніх сервісів повернулися до роботи приблизно через 30 хвилин після ізоляції проблеми інженерами.

Відновлення тривало довше для систем, безпосередньо пов’язаних із механізмом співставлення біржі та інфраструктурою Kafka, оскільки обидві залежали від спеціалізованого апаратного забезпечення та конфігурацій зберігання.

Після стабілізації середовища Coinbase поступово відкрив ринки. Спершу торгівля перейшла у режим скасування ордерів, перш ніж команди провели аудит стану продуктів. Потім ринки увійшли у режим аукціону, і торгівля повністю відновилася по всій біржі.

Coinbase заявляє, що під час багатогодинної зупинки платформи дані не були втрачені

Coinbase визнав, що частини його архітектури зосереджували критичну інфраструктуру біржі в одному зоні доступності. Інженери заявили, що були передбачені резервні системи для сценаріїв аварійного відключення, але заходи ізоляції не спрацювали під час події. Це спричинило подовження тривалості та поширення збою понад заплановані межі.

Керівники компанії похвалили внутрішню координацію під час процесу відновлення. За словами інженерних та чергових команд, вони дотримувалися встановлених процедур аварійного відновлення, тестували та перевіряли виправлення в умовах обмеженої інфраструктури.

Coinbase вибачився перед клієнтами, які тимчасово втратили доступ до своїх акаунтів і торгівельних сервісів. Керівники заявили, що повний аналіз причин буде оприлюднено найближчими тижнями, разом із запланованими заходами щодо підвищення надійності для запобігання подібним збоїм.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити