Coinbase Berjanji Analisis Penyebab Utama Penuh Setelah Insiden Pertukaran Besar

Kegagalan infrastruktur AWS dan masalah pemulihan Kafka sementara menghentikan perdagangan di Coinbase.

Coinbase mengalami gangguan layanan besar pada 7 Mei yang mengganggu perdagangan, akses pertukaran, dan pembaruan saldo pelanggan di beberapa platform. Masalah mempengaruhi pasar spot, derivatif, layanan Prime, dan operasi perdagangan internasional selama beberapa jam. Insinyur kemudian melacak masalah tersebut ke kegagalan sistem pendinginan di dalam pusat data AWS di Amerika Serikat. Coinbase mengatakan dana pelanggan tetap aman dan tidak ada data yang hilang selama insiden tersebut.

Masalah Pemulihan Kafka Memperburuk Gangguan Coinbase

Coinbase mengungkapkan bahwa sistem pemantauan pertama kali mendeteksi kegagalan kutipan berantai sekitar pukul 23:50 UTC. Beberapa insiden Sev1 mengikuti tak lama kemudian, memicu prosedur tanggap darurat di seluruh tim teknik. Sistem internal yang terkait dengan infrastruktur inti pertukaran mulai gagal saat suhu meningkat di dalam sebagian rak yang dihosting di AWS us-east-1.

Kemarin @coinbase mengalami gangguan layanan selama beberapa jam yang mempengaruhi perdagangan, akses pertukaran, dan pembaruan saldo. Berikut adalah bacaan awal dari tim teknik Coinbase tentang apa yang terjadi, bagaimana kami memulihkannya, dan apa yang sedang kami tangani.

Sekitar pukul 23:50 UTC pada 2026-05-07, kami…

— rob (@rwitoff) 8 Mei 2026

Menurut insinyur Coinbase, kegagalan perangkat keras melanda sistem yang terhubung ke mesin pencocokan pertukaran. Mesin tersebut memproses pesanan dan memelihara buku pesanan di seluruh pasar Coinbase. Masalah infrastruktur di fasilitas yang terdampak menyebabkan hanya sebagian node yang berfungsi. Akibatnya, klaster gagal mencapai kuorum, sementara perdagangan sementara diblokir untuk pengguna ritel dan institusional.

Insinyur juga menghadapi komplikasi yang melibatkan klaster Kafka terdistribusi yang digunakan untuk pesan internal. Coinbase mengatakan bahwa klaster tersebut memproses beberapa terabyte data setiap hari dan dirancang agar tetap beroperasi selama gangguan pusat data. Jaminan pemulihan gagal selama insiden, memaksa tim untuk memulihkan partisi secara manual ke broker perangkat keras pengganti.

Kegagalan Perangkat Keras Khusus Melambatkan Proses Pemulihan

Pelanggan mengalami penundaan pembaruan saldo saat replikasi Kafka pulih. Coinbase mengatakan bahwa saldo akan disinkronkan secara otomatis setelah sistem kembali normal. Perwakilan perusahaan menambahkan bahwa tidak ada data pelanggan atau transaksi yang hilang selama gangguan tersebut.

Alat pemulihan otomatis menguras beban kerja dari sekitar 10 klaster Kubernetes yang terkait dengan zona yang terdampak. Sebagian besar layanan internal kembali berfungsi dalam waktu sekitar 30 menit setelah insinyur mengisolasi masalah tersebut.

Pemulihan memakan waktu lebih lama untuk sistem yang terhubung langsung ke mesin pencocokan pertukaran dan infrastruktur Kafka karena keduanya bergantung pada perangkat keras dan konfigurasi penyimpanan khusus.

Setelah menstabilkan lingkungan, Coinbase membuka kembali pasar secara bertahap. Perdagangan pertama kali beralih ke mode pembatalan saja sebelum tim melakukan audit terhadap status produk. Pasar kemudian memasuki mode lelang sebelum perdagangan penuh dilanjutkan di seluruh pertukaran.

Coinbase Menyatakan Tidak Ada Data yang Hilang Selama Gangguan Platform Berjam-Jam

Coinbase mengakui bahwa bagian dari arsitekturnya memusatkan infrastruktur pertukaran penting dalam satu zona ketersediaan. Insinyur menyatakan bahwa sistem cadangan telah disiapkan untuk skenario failover, meskipun langkah isolasi gagal selama kejadian tersebut. Hal ini memperpanjang durasi dan penyebaran gangguan di luar batas yang diinginkan.

Eksekutif perusahaan memuji koordinasi internal selama proses pemulihan. Tim teknik dan on-call dilaporkan mengikuti prosedur pemulihan bencana yang telah ditetapkan saat menguji dan memvalidasi perbaikan di bawah kondisi infrastruktur yang terbatas.

Coinbase meminta maaf kepada pelanggan yang sementara kehilangan akses ke akun dan layanan perdagangan mereka. Eksekutif mengatakan bahwa analisis akar penyebab lengkap akan dirilis dalam beberapa minggu mendatang, bersama dengan peningkatan keandalan yang direncanakan untuk mencegah kegagalan serupa.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan