Coinbase promete un análisis completo de la causa raíz tras un incidente importante en el intercambio

Las fallas en la infraestructura de AWS y los problemas de recuperación de Kafka detuvieron temporalmente el comercio en Coinbase.

Coinbase sufrió una importante caída del servicio el 7 de mayo que interrumpió el comercio, el acceso a la plataforma y las actualizaciones de saldo de los clientes en varias plataformas. Los problemas afectaron los mercados spot, derivados, servicios Prime y operaciones de comercio internacional durante varias horas. Los ingenieros posteriormente rastrearon el problema hasta una falla en el sistema de enfriamiento dentro de un centro de datos de AWS en Estados Unidos. Coinbase afirmó que los fondos de los clientes permanecieron seguros y que no se perdió ningún dato durante el incidente.

Los Problemas de Recuperación de Kafka Agravan la Caída de Coinbase

Coinbase divulgó que los sistemas de monitoreo detectaron por primera vez fallas en las cotizaciones en cascada alrededor de las 23:50 UTC. Múltiples incidentes Sev1 siguieron poco después, lo que provocó procedimientos de respuesta de emergencia en los equipos de ingeniería. Los sistemas internos vinculados a la infraestructura principal del intercambio comenzaron a fallar a medida que aumentaban las temperaturas dentro de un subconjunto de racks alojados en AWS us-east-1.

Ayer @coinbase experimentó una interrupción del servicio de varias horas que afectó el comercio, el acceso a la plataforma y las actualizaciones de saldo. Aquí nuestra interpretación inicial del equipo de Coinbase sobre qué sucedió, cómo nos recuperamos y qué estamos abordando.

Aproximadamente a las 23:50 UTC del 2026-05-07, nuestro…

— rob (@rwitoff) 8 de mayo de 2026

Según los ingenieros de Coinbase, fallas de hardware afectaron sistemas conectados al motor de emparejamiento del intercambio. Ese motor procesa órdenes y mantiene los libros de órdenes en los mercados de Coinbase. Los problemas de infraestructura dentro de la instalación afectada dejaron solo una parte de los nodos operativos. Como resultado, el clúster no logró alcanzar el quórum, bloqueando temporalmente el comercio para usuarios minoristas e institucionales.

Los ingenieros también enfrentaron complicaciones relacionadas con clústeres distribuidos de Kafka utilizados para la mensajería interna. Coinbase afirmó que esos clústeres procesan varios terabytes de datos diariamente y fueron diseñados para mantenerse operativos durante una caída en un centro de datos. Las garantías de recuperación fallaron durante el incidente, lo que obligó a los equipos a restaurar manualmente las particiones en brokers de hardware de reemplazo.

La Falla en Hardware Dedicado Retrasa el Proceso de Recuperación

Los clientes experimentaron retrasos en las actualizaciones de saldo mientras la replicación de Kafka se recuperaba. Coinbase dijo que los saldos se sincronizarían automáticamente una vez que los sistemas se pusieran al día. Los representantes de la compañía añadieron que no desapareció ningún dato de cliente o transacción durante la caída.

Las herramientas de recuperación automatizadas drenaron las cargas de trabajo de aproximadamente 10 clústeres de Kubernetes vinculados a la zona afectada. La mayoría de los servicios internos volvieron a funcionar en unos 30 minutos después de que los ingenieros aislaron el problema.

La recuperación tomó más tiempo para los sistemas vinculados directamente al motor de emparejamiento del intercambio y a la infraestructura de Kafka porque ambos dependían de hardware y configuraciones de almacenamiento dedicados.

Tras estabilizar el entorno, Coinbase reabrió los mercados por etapas. Primero, el comercio pasó a modo solo cancelaciones antes de que los equipos auditaran los estados de los productos. Luego, los mercados entraron en modo subasta antes de reanudar el comercio completo en toda la plataforma.

Coinbase Asegura que No Se Perdieron Datos Durante la Caída de Varias Horas de la Plataforma

Coinbase reconoció que partes de su arquitectura concentraron infraestructura crítica del intercambio en una sola zona de disponibilidad. Los ingenieros afirmaron que existían sistemas de respaldo para escenarios de conmutación por error, aunque las medidas de aislamiento fallaron durante el evento. Esto extendió la duración y el alcance de la caída más allá de los límites previstos.

Los ejecutivos de la compañía elogiaron la coordinación interna durante el proceso de recuperación. Se informó que los equipos de ingeniería y de guardia siguieron los procedimientos establecidos de recuperación ante desastres mientras probaban y validaban las soluciones bajo condiciones de infraestructura limitadas.

Coinbase se disculpó con los clientes que perdieron temporalmente el acceso a sus cuentas y servicios de comercio. Los ejecutivos dijeron que en las próximas semanas se publicará un análisis completo de la causa raíz, junto con mejoras de confiabilidad planificadas para prevenir fallas similares.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado