Perpindahan Coinbase ke operasi yang dipimpin AI tidak berjalan dengan baik

Coinbase (Nasdaq: COIN) sekali lagi menunjukkan kepada trader kripto betapa lambatnya perangkat keras cloud dapat merusak bahkan pertukaran yang cepat. Tampaknya strategi pivot operasi berbasis AI perusahaan ini mungkin telah menjadi langkah terburuknya sejauh ini.

Pada hari Jumat, perusahaan mengatakan bahwa kegagalan pendinginan di dalam Amazon Web Services (Nasdaq: AMZN), membantu memicu gangguan selama berjam-jam yang mempengaruhi perdagangan, akses pertukaran, dan pembaruan saldo di seluruh platformnya.

Masalah dimulai sekitar pukul 23:50 UTC pada 7 Mei ketika monitor internal mendeteksi pecahnya kegagalan kutipan secara luas dalam sistem perusahaan.

Pada saat itu, beberapa insiden Sev1 dibuat oleh para insinyur, dan pelanggan sudah terpengaruh dalam hal layanan seperti perdagangan spot, Coinbase Prime, Internasional, derivatif, Retail, Advanced, dan pertukaran Institusional.

Brian Armstrong, yang merupakan CEO Coinbase, menulis di X bahwa perusahaannya “mengalami gangguan” dan bahwa kejadian seperti itu “tidak pernah dapat diterima.” Menurut dia, penyebabnya adalah “overheating di sebuah ruangan di pusat data AWS karena beberapa pendingin gagal.”

Menurut Brian, perusahaan memastikan bahwa semua layanan mereka dirancang sedemikian rupa sehingga mereka tidak offline jika satu zona ketersediaan AWS gagal. Sebagian besar layanan disusun dengan cara ini, kecuali untuk pertukaran, yang menggunakan infrastruktur berbeda karena tuntutan latensi tinggi.

Coinbase menyalahkan kegagalan pendingin AWS karena sistem kutipan mulai rusak sebelum tengah malam UTC

Dilaporkan oleh Cryptopolitan sebelumnya bahwa Coinbase berencana memberhentikan 700 pekerja dari staf mereka karena itu sekitar 14% dari total tenaga kerja. Dan ini dilakukan dengan niat menggantikan proses manual dengan AI.

Rob Witoff, yang memimpin Platform Coinbase, memberikan rincian teknis tentang masalah tersebut. Menurutnya, gangguan berlangsung cukup lama dan mempengaruhi “perdagangan, akses pertukaran, dan pembaruan saldo.”

Peringatan awal muncul sekitar pukul 23:50 UTC karena kegagalan kutipan yang berasal dari sistem internal. Analisis Sev1 segera dilakukan. Menurut Rob, penyebab tantangan ini adalah “peristiwa termal” di sebagian kecil rak di salah satu fasilitas AWS di us-east-1.

Struktur seperti ini untuk infrastruktur pertukaran sangat membantu. Rob mengatakan bahwa Coinbase memelihara infrastruktur pertukarannya di satu zona ketersediaan, karena industri menghargai kecepatan.

Selain itu, perusahaan memiliki salinan cadangan terdistribusi dari infrastruktur pertukaran ini sebagai antisipasi skenario seperti ini. Tetapi kegagalan salah satu bagian dari infrastruktur pertukaran yang dimaksud saat ini tidak tetap dalam batasannya, memperpanjang proses memperbaiki situasi.

Dua komponen gagal. Ada kerusakan pada perangkat keras di bawah mesin pencocokan. Oleh karena itu, sebelum melakukan apa pun, diperlukan operasi pemulihan dan failover.

Selain itu, klaster Kafka terdistribusi, yang bertugas membagikan informasi ke seluruh sistem dalam organisasi, juga turun. Dibutuhkan pemulihan partisi Kafka di perangkat keras baru, yang menyimpan TiB data.

Para insinyur membangun kembali quorum dan mengembalikan pasar Coinbase melalui mode batal dan lelang

Mesin pencocokan bertanggung jawab atas hambatan perdagangan terbesar. Mesin pencocokan memproses pesanan dan memelihara buku pesanan. Sistem ini bekerja dalam klaster terdistribusi dan memerlukan quorum sebelum memilih pemimpin dan melakukan perdagangan dengan aman.

Karena tidak semua node tetap sehat akibat kendala di pusat data selama gangguan, quorum tidak dapat dicapai, sehingga mencegah aktivitas perdagangan di pertukaran Retail, Advanced, dan Institusional.

Rob menyebutkan bahwa tim dukungan panggilan dan tim insinyur harus menjalankan prosedur pemulihan bencana perusahaan, membangun quorum, dan menilai kesehatan sistem di bawah kondisi infrastruktur yang sulit.

Menurutnya, tim harus mengembangkan, menguji, menerapkan, dan memvalidasi solusi sambil mengelola gangguan yang lebih luas. Kafka akan membutuhkan pemulihan manual yang ekstensif karena arsitektur partisinya mengelola ribuan terabyte data setiap hari.

Ada beberapa masalah dengan aliran saldo yang tertunda karena Kafka tertinggal. Rob menyatakan bahwa masalah ini dengan saldo hilang setelah replikasi menjadi sinkron. Menurut Coinbase, tidak ada data yang hilang.

Ketika mesin pencocokan kembali beroperasi, pasar tidak diaktifkan kembali secara bersamaan. Pertama, Coinbase mengalihkan semua produk ke mode batal saja, memeriksa status produk, mengalihkan semua pasar ke mode lelang, dan akhirnya, mengaktifkan perdagangan di Coinbase Exchange.

Selain itu, Rob menekankan bahwa pelanggan tidak seharusnya dikunci dari akun mereka sementara waktu. Coinbase meyakinkan semua orang bahwa perusahaan akan memberikan penjelasan rinci tentang insiden ini dalam beberapa minggu.

Namun, Josh Ellithorpe membantah rumor setelah membaca posting Rob di Twitter. Menurutnya, “tidak ada yang sengaja membuat sesuatu yang gagal. Seorang ‘non-insinyur’ tidak mendorong kode produksi dan merusak mesin perdagangan. Itu tidak disengaja. Itu bukan karena Coinbase gagal merancang sistem failover. Kejadian terjadi dalam skala besar, jangan biarkan para komentator armchair memberi tahu cerita bohong.”

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan