Поворот Coinbase до керованих штучним інтелектом операцій йде не дуже добре

Coinbase (Nasdaq: COIN) ще раз показав трейдерам криптовалют, наскільки повільне хмарне обладнання може зіпсувати навіть швидку біржу. Здається, стратегія переходу компанії на штучний інтелект для операцій могла бути її найгіршим кроком.

У п’ятницю компанія повідомила, що відмова охолодження всередині Amazon Web Services (Nasdaq: AMZN) спричинила багатогодинний збій, який торкнувся торгів, доступу до біржі та оновлень балансу по всій платформі.

Проблема почалася приблизно о 23:50 за UTC 7 травня, коли внутрішні монітори зафіксували поширений вихід з ладу котирувань у системах компанії.

У той момент кілька інцидентів рівня Sev1 були створені інженерами, і клієнти вже відчували вплив у таких сервісах, як спотова торгівля, Coinbase Prime, International, деривативи, Retail, Advanced та Institutional біржі.

Браян Армстронг, який є генеральним директором Coinbase, написав у X, що його компанія “зазнала збою” і що така ситуація “ніколи не була прийнятною.” За його словами, причиною цього стала “перегрівання кімнати в дата-центрі AWS через кілька несправних охолоджувачів.”

За словами Браяна, компанія гарантує, що всі їхні сервіси спроектовані так, щоб не виходити з ладу у разі відмови однієї з доступних зон AWS. Більшість сервісів структуровані саме так, окрім біржі, яка використовує іншу інфраструктуру через високі вимоги до затримки.

Coinbase звинувачує несправні охолоджувачі AWS, оскільки системи котирувань починають виходити з ладу ще до опівночі за UTC

Раніше Cryptopolitan повідомив, що Coinbase планує звільнити 700 співробітників, що становить приблизно 14% від загальної кількості працівників. Це робиться з метою заміни ручних процесів штучним інтелектом.

Роб Віттоф, керівник платформи Coinbase, надав технічні деталі цієї ситуації. За його словами, збій тривав довго і вплинув на “торгівлю, доступ до біржі та оновлення балансу.”

Перший попереджувальний сигнал з’явився о 23:50 за UTC через вихід з ладу котирувань, що виникли з внутрішніх систем. Наступив негайний аналіз рівня Sev1. За словами Роба, причиною цієї проблеми став “тепловий інцидент” у невеликій кількості стелажів у одному з об’єктів AWS у us-east-1.

Такий підхід до інфраструктури біржі був корисним. Роб зазначив, що Coinbase підтримує свою інфраструктуру біржі в одній зоні доступності, оскільки індустрія цінує швидкість.

Крім того, компанія має розподілену резервну копію цієї інфраструктури на випадок таких сценаріїв. Але відмова однієї частини інфраструктури біржі в цей момент не залишилася в межах своїх кордонів, що затягнуло процес усунення проблеми.

Зламано два компоненти. Вийшов з ладу апаратний компонент під системою співставлення. Тому передусім потрібно було виконати відновлювальні та аварійні операції.

Також зупинився розподілений кластер Kafka, який відповідає за обмін інформацією між усіма системами організації. Це призвело до зупинки роботи Kafka на новому обладнанні, що містило терабайти даних.

Інженери відновили консенсус і повернули ринки Coinbase у роботу через режими скасування та аукціону

Система співставлення відповідала за найбільшу затримку у торгівлі. Вона обробляє ордери та підтримує книги замовлень. Система працює у розподіленому кластері і вимагає кворуму для вибору лідера та безпечної торгівлі.

Оскільки не всі вузли залишилися здоровими через обмеження у дата-центрі під час збою, кворум не був досягнутий, що завадило торгівлі на Retail, Advanced та Institutional біржах.

Роб зазначив, що служби підтримки та інженерні команди мали виконати процедури аварійного відновлення компанії, встановити кворум і оцінити стан системи за складних умов інфраструктури.

За його словами, команді довелося розробити, протестувати, розгорнути та перевірити рішення, одночасно керуючи масштабним збоєм. Kafka потребувала б значного ручного відновлення, оскільки її архітектура з розбитими на частини даними обробля тисячі терабайт щодня.

Були проблеми з затримками потоків балансу через відставання Kafka. Роб заявив, що ці проблеми з балансами зникли після синхронізації реплікації. За даними Coinbase, дані не були втрачені.

Коли система співставлення знову запрацювала, ринки не були відновлені одночасно. Спершу Coinbase переключила всі продукти у режим скасування, перевірила статуси продуктів, переключила всі ринки у режим аукціону і нарешті ввела торгівлю на Coinbase Exchange.

Крім того, Роб підкреслив, що клієнти не повинні тимчасово втратити доступ до своїх акаунтів. Coinbase запевнив усіх, що компанія надасть детальне пояснення цієї ситуації протягом кількох тижнів.

Однак Джош Елліторпе спростував чутки після прочитання посту Роба у Twitter. За його словами, “ніхто не писав код, який би зламався. ‘Неінженер’ не натиснув кнопку продакшн і не знищив систему торгівлі. Це не було навмисно. Це не через те, що Coinbase не спроектувала систему аварійного відновлення. Таке трапляється у масштабі, не дозволяйте аматорським експертам розповідати вам казки.”

Якщо ви шукаєте спокійний спосіб увійти у DeFi-крипту без звичайного галасу, почніть з цього безкоштовного відео.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити