Переход Coinbase к управлению на базе искусственного интеллекта идет не очень хорошо

Coinbase (Nasdaq: COIN) снова показала криптотрейдерам, насколько медленным может быть облачное оборудование и как оно портит даже быструю биржу. Похоже, стратегия переключения операций компании на ИИ могла стать её худшим шагом на сегодняшний день.

В пятницу компания заявила, что сбой охлаждения внутри Amazon Web Services (Nasdaq: AMZN) помог вызвать многосуточный сбой, который затронул торговлю, доступ к бирже и обновление балансов на всей платформе.

Проблема началась примерно в 23:50 UTC 7 мая, когда внутренние мониторы зафиксировали массовый сбой котировок в системах компании.

В этот момент инженеры создали несколько инцидентов уровня Sev1, и услуги для клиентов уже были затронуты, включая спотовую торговлю, Coinbase Prime, International, деривативы, Retail, Advanced и Institutional биржи.

Брайан Армстронг, генеральный директор Coinbase, написал в X, что его компания «испытала сбой» и что такое событие «никогда не допустимо». По его словам, причиной этого стало «перегрев комнаты в дата-центре AWS из-за отказа нескольких охладителей».

По словам Брайана, компания обеспечивает, чтобы все их услуги были спроектированы так, чтобы не выходить из строя в случае отказа одной зоны доступности AWS. Большинство сервисов устроены именно так, за исключением биржи, которая использует другую инфраструктуру из-за требований к высокой задержке.

Coinbase обвиняет отказавшие охладители AWS, так как системы котировок начинают ломаться еще до полуночи по UTC

Ранее Cryptopolitan сообщил, что Coinbase планирует уволить 700 сотрудников, что составляет примерно 14% от общего штата. И это делается с целью заменить ручные процессы ИИ.

Роб Виттоф, руководитель платформы Coinbase, предоставил технические детали ситуации. По его словам, сбой длился долго и затронул «торговлю, доступ к бирже и обновление балансов».

Первое предупреждение поступило около 23:50 UTC из-за сбоев котировок, исходящих из внутренних систем. Следовал немедленный анализ уровня Sev1. По словам Роба, причиной этой проблемы стал «тепловой сбой» в небольшом проценте стоек в одном из объектов AWS в регионе us-east-1.

Такая структура инфраструктуры биржи оказалась полезной. Роб отметил, что Coinbase поддерживает инфраструктуру биржи в одной зоне доступности, поскольку индустрия ценит скорость.

Кроме того, у компании есть распределенная резервная копия этой инфраструктуры на случай подобных сценариев. Но отказ одной части инфраструктуры в данный момент не остался внутри своих границ, что затянуло процесс устранения ситуации.

Отказали два компонента. Вышел из строя аппаратный блок под движком сопоставления. Поэтому сначала потребовались операции восстановления и переключения.

Также вышел из строя распределенный кластер Kafka, отвечающий за обмен информацией по всей системе. Восстановление разделов Kafka на новом аппаратном брокере заняло время, измеряемое терабайтами данных.

Инженеры восстановили консенсус и вернули рынки Coinbase в работу через режим отмены и аукциона

Движок сопоставления был ответственен за крупнейшую задержку в торговле. Он обрабатывает ордера и поддерживает книги ордеров. Система работает в распределенном кластере и требует кворума для выбора лидера и безопасного проведения сделок.

Поскольку не все узлы остались работоспособными из-за ограничений в дата-центре во время сбоя, кворум достичь не удалось, что помешало торговым операциям на Retail, Advanced и Institutional биржах.

Роб отметил, что службы поддержки и инженерные команды должны были выполнить процедуры аварийного восстановления, установить кворум и оценить состояние системы в сложных условиях инфраструктуры.

По его словам, команда должна была разработать, протестировать, развернуть и проверить решение, управляя более широким сбоем. Восстановление Kafka потребовало бы значительных ручных усилий, поскольку его архитектура с разделенными разделами управляет тысячами терабайт данных ежедневно.

Возникли проблемы с задержками потоков балансов, потому что Kafka отставал. Роб заявил, что эти проблемы с балансами исчезли после синхронизации репликации. По словам Coinbase, данные не были потеряны.

Когда движок сопоставления снова запустился, рынки не были одновременно разблокированы. Сначала Coinbase перевел все продукты в режим отмены, проверил статусы продуктов, перевел все рынки в режим аукциона и, наконец, включил торговлю на Coinbase Exchange.

Кроме того, Роб подчеркнул, что клиенты не должны быть временно заблокированы в своих аккаунтах. Coinbase заверил всех, что компания предоставит подробное объяснение этого инцидента в течение нескольких недель.

Однако Джош Эллиторпе опроверг слухи после прочтения поста Роба в Twitter. По его словам, «никто не писал код, который бы сломался. Не инженер не запустил продакшн-код и не вывел из строя торговый движок. Это не было умышленно. Это не потому, что Coinbase не спроектировала систему отказоустойчивости. В масштабах происходят вещи, не позволяйте любителям-экспертам рассказывать вам сказки».

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить