CoinbaseのAI主導の運営への転換はうまくいっていません

Coinbase(ナスダック:COIN)は、再び暗号通貨トレーダーにクラウドハードウェアの遅さが高速な取引所さえも台無しにできることを示しました。どうやら、同社のAIを活用した運用ピボット戦略は、これまでで最悪の動きだった可能性があります。

金曜日、同社はAmazon Web Services(ナスダック:AMZN)内部の冷却故障が、取引、取引所アクセス、残高更新に影響を与える数時間にわたる障害を引き起こしたと発表しました。

問題は、5月7日UTC時間の23:50頃に始まり、社内モニターが同社システム内で広範な見積もり失敗の発生を検知したことから明らかになりました。

その時点で、エンジニアによって複数のSev1インシデントが作成され、スポット取引、Coinbase Prime、International、デリバティブ、リテール、アドバンス、機関向け取引所などのサービスにすでに影響が出ていました。

CoinbaseのCEO、ブライアン・アームストロングはX(旧Twitter)で、「障害を経験した」と書き、そのような出来事は「決して許容できない」と述べました。彼によると、その原因は「複数の冷却器の故障によりAWSデータセンター内の部屋が過熱したこと」だとしています。

ブライアンによると、同社はすべてのサービスが、1つのAWSアベイラビリティゾーンが故障した場合でもオフラインにならないように設計されていることを保証しています。ほとんどのサービスはこのように構築されていますが、取引所だけは高遅延の要求により異なるインフラを使用しています。

Coinbaseは、深夜UTC前にQuoteシステムが故障し始めたことを理由に、AWSの冷却器の故障を非難しています。

Cryptopolitanは以前、Coinbaseが従業員700人を解雇する計画を立てていると報じました。これは総労働力の約14%に相当し、手動プロセスをAIに置き換える目的で行われています。

Coinbaseのプラットフォーム責任者ロブ・ウィトフは、技術的な詳細を説明しました。彼によると、障害は長時間続き、「取引、取引所アクセス、残高更新」に影響を与えました。

最初の警告は、内部システムからのQuote失敗により、23:50UTC頃に発生しました。直ちにSev1分析が行われました。ロブによると、この問題の原因は、AWS us-east-1の施設内のラックの一部で発生した「熱イベント」でした。

このような取引インフラの構造は役立ちました。ロブは、Coinbaseは業界が速度を重視しているため、取引所インフラを1つのアベイラビリティゾーンに維持していると述べました。

さらに、同社はこのようなシナリオに備えて分散バックアップコピーも持っています。しかし、今回の取引所インフラの一部の故障はその境界内にとどまらず、修復作業を長引かせました。

2つのコンポーネントが故障しました。マッチングエンジンの下のハードウェアに不具合がありました。そのため、最初にリカバリーとフェイルオーバー操作を行う必要がありました。

また、組織内のすべてのシステム間で情報を共有する役割を持つ分散Kafkaクラスターもダウンしました。これには、TiB単位の情報を持つKafkaパーティションの新しいハードウェアブローカーへの復旧が必要でした。

エンジニアはクォーラムを再構築し、キャンセル専用モードとオークションモードを通じてCoinbaseの市場を復旧させました。

最も大きな取引停止はマッチングエンジンによるものでした。マッチングエンジンは注文を処理し、注文帳簿を維持します。システムは分散クラスターで動作し、リーダーを選出し安全に取引を行うためにクォーラムが必要です。

障害中、データセンターの制約によりすべてのノードが正常でなかったため、クォーラムを達成できず、リテール、アドバンス、機関向け取引所での取引活動が妨げられました。

ロブは、オンコールサポートとエンジニアリングチームが、困難なインフラ状況下での災害復旧手順を実行し、クォーラムを確立し、システムの健全性を評価したと述べました。

彼によると、チームは、広範な障害の中で解決策を開発、テスト、展開、検証しなければなりませんでした。Kafkaは、そのパーティション化されたアーキテクチャにより、毎日何千テラバイトものデータを管理しているため、手動の復旧作業が必要でした。

バランスストリームの遅延問題もありましたが、これはレプリケーションの同期により解消されました。Coinbaseによると、データの損失はありませんでした。

マッチングエンジンが復旧した後、市場は同時に再開されませんでした。最初にCoinbaseはすべての製品をキャンセル専用モードに切り替え、製品の状態を確認し、すべての市場をオークションモードに切り替え、最後にCoinbase Exchangeでの取引を再開しました。

さらに、ロブは、顧客が一時的にアカウントにアクセスできなくなることはないと強調しました。Coinbaseは、数週間以内にこの事件について詳細な説明を提供すると保証しました。

しかし、ロブのTwitter投稿を読んだ後、ジョシュ・エリソルプは噂を否定しました。彼は、「誰も故障するようなコードを書いたわけではない。‘非エンジニア’が本番コードをプッシュして取引エンジンを止めたわけではない。意図的ではなかった。Coinbaseがフェイルオーバーシステムを設計しなかったわけでもない。大規模な事象では何かが起こるものだ。アームチェアのクォーターバックに嘘を語らせるな」と述べました。

通常のハイプなしでDeFi暗号により穏やかに入門したいなら、この無料動画から始めてください。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン