A Coinbase promete uma análise completa da causa raiz após um incidente importante na bolsa

Falhas na infraestrutura da AWS e problemas na recuperação do Kafka temporariamente interromperam as negociações na Coinbase.

A Coinbase sofreu uma grande interrupção de serviço em 7 de maio que perturbou negociações, acesso à bolsa e atualizações de saldo dos clientes em várias plataformas. Problemas afetaram mercados à vista, derivativos, serviços Prime e operações de negociação internacional por várias horas. Engenheiros posteriormente identificaram o problema como uma falha no sistema de refrigeração dentro de um centro de dados da AWS nos Estados Unidos. A Coinbase afirmou que os fundos dos clientes permaneceram seguros e que nenhum dado foi perdido durante o incidente.

Problemas na Recuperação do Kafka Aprofundam a Interrupção na Coinbase

A Coinbase divulgou que os sistemas de monitoramento detectaram inicialmente falhas em cotações em cascata por volta das 23h50 UTC. Múltiplos incidentes de Severidade 1 seguiram logo depois, levando a procedimentos de resposta de emergência entre as equipes de engenharia. Sistemas internos ligados à infraestrutura principal da bolsa começaram a falhar à medida que as temperaturas aumentavam dentro de um subconjunto de racks hospedados na AWS us-east-1.

Ontem @coinbase experimentou uma interrupção de serviço de várias horas que afetou negociações, acesso à bolsa e atualizações de saldo. Aqui está nossa leitura inicial da equipe de engenharia da Coinbase sobre o que aconteceu, como nos recuperamos e o que estamos abordando.

Por volta das 23h50 UTC em 2026-05-07, nossos…

— rob (@rwitoff) 8 de maio de 2026

De acordo com engenheiros da Coinbase, falhas de hardware atingiram sistemas conectados ao motor de correspondência da bolsa. Esse motor processa ordens e mantém livros de ordens nos mercados da Coinbase. Problemas de infraestrutura na instalação afetada deixaram apenas uma parte dos nós operacionais. Como resultado, o cluster não conseguiu atingir o quórum, bloqueando temporariamente as negociações para usuários de varejo e institucionais.

Engenheiros também enfrentaram complicações envolvendo clusters distribuídos do Kafka usados para mensagens internas. A Coinbase afirmou que esses clusters processam vários terabytes de dados diariamente e foram projetados para permanecer operacionais durante uma queda no centro de dados. As garantias de recuperação falharam durante o incidente, forçando as equipes a restaurar manualmente as partições em brokers de hardware de substituição.

Falha de Hardware Dedicado Dificulta o Processo de Recuperação

Os clientes experimentaram atrasos nas atualizações de saldo enquanto a replicação do Kafka se recuperava. A Coinbase afirmou que os saldos seriam sincronizados automaticamente assim que os sistemas se atualizassem. Representantes da empresa acrescentaram que nenhum dado de cliente ou transação desapareceu durante a interrupção.

Ferramentas automatizadas de recuperação descarregaram cargas de trabalho de aproximadamente 10 clusters Kubernetes ligados à zona afetada. A maioria dos serviços internos voltou a funcionar em cerca de 30 minutos após os engenheiros isolarem o problema.

A recuperação levou mais tempo para sistemas ligados diretamente ao motor de correspondência da bolsa e à infraestrutura do Kafka, pois ambos dependiam de hardware dedicado e configurações de armazenamento específicas.

Após estabilizar o ambiente, a Coinbase reabriu os mercados por etapas. Primeiro, as negociações passaram a modo de cancelamento apenas, antes que as equipes auditassem os estados dos produtos. Depois, os mercados entraram em modo de leilão antes que as negociações completas fossem retomadas na bolsa.

Coinbase Afirma que Nenhum Dado Foi Perdito Durante a Interrupção de Vários Horas

A Coinbase reconheceu que partes de sua arquitetura concentraram infraestrutura crítica da bolsa dentro de uma única zona de disponibilidade. Engenheiros afirmaram que sistemas de reserva estavam em funcionamento para cenários de failover, embora as medidas de isolamento tenham falhado durante o evento. Isso prolongou a duração e a propagação da interrupção além dos limites planejados.

Executivos da empresa elogiaram a coordenação interna durante o processo de recuperação. Equipes de engenharia e de plantão supostamente seguiram procedimentos estabelecidos de recuperação de desastres enquanto testavam e validavam as correções sob condições de infraestrutura restritas.

A Coinbase pediu desculpas aos clientes que perderam temporariamente o acesso às suas contas e serviços de negociação. Os executivos disseram que uma análise completa da causa raiz será divulgada nas próximas semanas, juntamente com melhorias planejadas na confiabilidade para evitar falhas semelhantes.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar