Le pivot de Coinbase vers des opérations dirigées par l'IA ne se passe pas très bien

Coinbase (Nasdaq : COIN) a une fois de plus montré aux traders crypto à quel point le matériel cloud lent peut gâcher même une bourse rapide. Il semble que la stratégie de pivot opérationnel alimentée par l’IA de l’entreprise ait peut-être été sa pire décision jusqu’à présent.

Vendredi, l’entreprise a déclaré qu’une panne de refroidissement à l’intérieur d’Amazon Web Services (Nasdaq : AMZN), avait contribué à déclencher une panne de plusieurs heures affectant le trading, l’accès à la bourse et les mises à jour de solde sur toute sa plateforme.

Le problème a commencé vers 23h50 UTC le 7 mai, lorsque des moniteurs internes ont détecté une défaillance généralisée des cotations au sein des systèmes de l’entreprise.

À ce moment-là, plusieurs incidents de niveau Sev1 ont été créés par les ingénieurs, et les clients étaient déjà impactés en termes de services tels que le trading au comptant, Coinbase Prime, International, dérivés, Retail, Advanced et les bourses institutionnelles.

Brian Armstrong, qui est le PDG de Coinbase, a écrit sur X que sa société « a connu une panne » et qu’un tel incident était « jamais acceptable ». Selon lui, la cause en était « une surchauffe d’une salle dans un centre de données AWS due à plusieurs refroidisseurs défaillants ».

Selon Brian, l’entreprise veille à ce que tous ses services soient conçus de manière à ne pas tomber hors ligne en cas de défaillance d’une zone de disponibilité AWS. La majorité des services sont structurés ainsi, sauf pour la bourse, qui utilise une infrastructure différente en raison de ses exigences de latence élevée.

Coinbase blâme les refroidisseurs AWS défaillants alors que les systèmes de cotation commencent à se casser avant minuit UTC

Il a été rapporté par Cryptopolitan plus tôt que Coinbase prévoit de licencier 700 employés, ce qui représente environ 14 % de la main-d’œuvre totale. Et cela est fait dans l’objectif de remplacer les processus manuels par de l’IA.

Rob Witoff, qui dirige la plateforme de Coinbase, a fourni les détails techniques de l’affaire. Selon lui, la panne a duré longtemps et a affecté « le trading, l’accès à la bourse et les mises à jour de solde ».

L’alerte initiale est survenue vers 23h50 UTC en raison de défaillances de cotation provenant des systèmes internes. Une analyse immédiate de niveau Sev1 a suivi. Selon Rob, la cause de ce problème était un « événement thermique » dans un petit pourcentage de racks dans l’un des centres AWS us-east-1.

Une telle structure pour l’infrastructure de la bourse s’est avérée utile. Rob a dit que Coinbase maintient son infrastructure de bourse dans une seule zone de disponibilité, car l’industrie valorise la rapidité.

De plus, la société dispose d’une copie de sauvegarde distribuée de cette infrastructure de bourse en cas de tels scénarios. Mais la défaillance d’une partie de l’infrastructure de la bourse en question à ce moment-là n’est pas restée confinée à ses limites, prolongeant le processus de correction de la situation.

Deux composants ont échoué. Il y a eu une défaillance au sein du matériel sous le moteur de correspondance. Par conséquent, avant toute chose, il a été nécessaire d’effectuer des opérations de récupération et de basculement.

De plus, le cluster Kafka distribué, chargé de partager l’information dans tous les systèmes de l’organisation, est tombé en panne. La récupération des partitions Kafka sur un nouveau broker matériel, contenant des téraoctets d’informations, a été nécessaire.

Les ingénieurs ont reconstruit le quorum et ont ramené les marchés de Coinbase via des modes d’annulation uniquement et d’enchères

Le moteur de correspondance était responsable du plus grand arrêt de trading. Le moteur de correspondance traite les ordres et maintient les carnets d’ordres. Le système fonctionne dans un cluster distribué et nécessite un quorum avant de choisir un leader et d’effectuer des transactions en toute sécurité.

Puisque tous les nœuds ne sont pas restés en bonne santé en raison des contraintes dans le centre de données lors de la panne, le quorum n’a pas pu être atteint, empêchant ainsi les activités de trading sur les bourses Retail, Advanced et Institutionnelle.

Rob a mentionné que les équipes de support en rotation et d’ingénierie ont dû exécuter les procédures de reprise après sinistre de l’entreprise, établir le quorum et évaluer la santé du système dans des conditions d’infrastructure difficiles.

Selon lui, l’équipe a dû développer, tester, déployer et valider une solution tout en gérant la panne plus large. Kafka aurait nécessité une récupération manuelle approfondie car son architecture partitionnée gère des milliers de téraoctets quotidiennement.

Il y a eu quelques problèmes avec des flux de solde retardés parce que Kafka était en retard. Rob a déclaré que ces problèmes de soldes ont disparu après que la réplication est devenue synchronisée. Selon Coinbase, aucune donnée n’a été perdue.

Lorsque le moteur de correspondance a été remis en service, les marchés n’ont pas été réactivés simultanément. Tout d’abord, Coinbase a mis tous les produits en mode d’annulation uniquement, vérifié l’état des produits, mis tous les marchés en mode enchères, puis enfin, activé le trading sur Coinbase Exchange.

De plus, Rob a souligné que les clients ne doivent pas être temporairement exclus de leurs comptes. Coinbase a assuré à tous que l’entreprise fournirait une explication détaillée de cet incident dans plusieurs semaines.

Cependant, Josh Ellithorpe a réfuté les rumeurs après avoir lu le message de Rob sur Twitter. Selon lui, « personne n’a codé quelque chose qui a échoué. Un ‘non-ingénieur’ n’a pas poussé de code en production et n’a pas mis hors service le moteur de trading. Ce n’était pas intentionnel. Ce n’est pas parce que Coinbase n’a pas conçu un système de basculement. Les choses arrivent à grande échelle, ne laissez pas les commentateurs du dimanche vous raconter des histoires à dormir debout. »

Si vous souhaitez une entrée plus calme dans la DeFi crypto sans le battage habituel, commencez par cette vidéo gratuite.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler