Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 40+ model AI, dengan 0% biaya tambahan
Xiaomi MiMo diskon 99% bukan hanya pemasaran! Luo Fuli membalas dengan X untuk mengecam para pesimis
null
Tulisan | Xiang Xianzhi
Luo Fulili mengirimkan sebuah cuitan di X, untuk menutup gelombang penurunan harga Xiaomi MiMo.
Pada 26 Mei, akun resmi Xiaomi MiMo merilis pengumuman di X: Seri API MiMo-V2.5 akan diskon permanen, dengan diskon tertinggi 99%. Semua harga konteks disamakan, paket Token ditingkatkan 5-8 kali lipat.
Pengumuman ini menyebar selama seminggu di komunitas AI domestik. Respon industri terbagi menjadi beberapa kubu. Kubu terbesar mengatakan ini adalah "gelombang perang harga lagi"—dua tahun terakhir dari Zhipu, DeepSeek, Byte Doudou, hingga Alibaba Tongyi, model besar domestik bergiliran menurunkan harga, siapa yang tidak ikut kompetisi.
Kubu lain melihatnya secara pesimis: Xiaomi baru saja mengumumkan laba tahun ini terjun bebas, dan di saat yang sama masih membakar 600 miliar di AI, API langsung dipotong sembilan puluh persen—ini tipikal "rugi demi merebut pasar". Ada juga yang berpendapat ini adalah efek DeepSeek yang berlanjut—yang menarik standar penetapan harga seluruh industri ke dasar, siapa pun yang tidak mengikuti akan tersingkir.
Sebagai kepala MiMo, Luo Fulili langsung mengeluarkan sebuah blog teknis sepanjang 5000 kata, membeberkan secara terbuka rincian proyek penurunan harga tersebut.
“Lihat, ini adalah kemampuan engineering nyata, bukan sekadar strategi pemasaran.”
Agar memahami apa yang dikatakan Luo Fulili, pertama-tama harus tahu apa yang sebenarnya turun 99%.
Ini bukan penurunan harga seluruh model. Diskon 99% khusus untuk satu kategori bernama Input (Cache Hit)—yaitu bagian "pengguna mengulang membaca konteks sejarah dalam percakapan panjang". Input baru (No Cache Hit) diskonnya jauh lebih kecil, output model (Output) diskonnya paling kecil.
Kalau kamu anggap model sebagai sebuah kedai kopi, hal ini jadi mudah dipahami.
Kamu pesan latte setengah gula, kedai kopi punya dua cara: setiap kali menggiling biji dari awal dan menuang sirup dan susu, bahan dan tenaga kerja dibayar sekali; tapi model tahu bahwa kamu setiap hari minum latte setengah gula yang sama, jadi langsung buat satu teko besar dan simpan di freezer, nanti tinggal ambil satu gelas. MiMo kali ini melakukan yang kedua—mengubah bagian pengguna yang diulang dari "perhitungan langsung" menjadi "pengambilan langsung", sehingga biaya nyata bagian ini mendekati 0, dan otomatis bisa diberi diskon 99%.
Untuk bisa "pengambilan langsung", blog teknis menjelaskan enam proyek engineering, masing-masing tidak boleh absen. Mari kita bahas satu per satu.
Proyek pertama: "Memori" model dipadatkan menjadi 1/7
Saat berinteraksi, setiap token model harus menghitung "status tengah" dan menyimpannya untuk digunakan berikutnya. Ini disebut KVCache—bisa dipahami sebagai "catatan memori jangka pendek" model. Setiap kali bicara, model mencatat ringkasan kalimat tersebut di catatan, sehingga berikutnya langsung merujuk ke catatan itu tanpa harus mendengar ulang semua yang pernah dikatakan.
Model tradisional melakukan "Full Attention" di setiap layer—setiap token harus melihat seluruh rangkaian token dalam percakapan, sehingga catatan memori semakin tebal. MiMo-V2.5-Pro mengubah arsitektur: dari 70 layer, 60 layer hanya melihat 128 token terakhir (SWA, Sliding Window Attention), hanya 10 layer sebagai "pengelola arsip" yang melihat seluruhnya.
Hasilnya, ukuran KVCache langsung dipadatkan menjadi 1/7 dari Full Attention, dan jumlah komputasi juga sama.
Ini adalah fondasi pertama pengurangan biaya. Bayangkan, sebelumnya setiap karyawan harus mengingat semua catatan rapat, akhirnya otaknya kelelahan dan efisiensi rendah. Aturan baru mengurangi beban otak 60 karyawan menjadi 1/7, hanya menyisakan 10 pengelola arsip yang mengurus seluruh sejarah—kemampuan memori perusahaan tidak berkurang, tapi efisiensi meningkat 7 kali lipat.
Proyek kedua: Menggunakan ruang yang dihemat SWA secara nyata
Secara arsitektur, memadatkan catatan ke 1/7 adalah langkah pertama, tapi untuk benar-benar mewujudkan "1/7 secara teori" menjadi "1/7 secara nyata", ada tantangan.
Sistem KVCache tradisional mengalokasikan memori secara seragam untuk semua layer berdasarkan "kemungkinan penggunaan maksimum". Artinya: meskipun 60 layer SWA hanya membutuhkan buku kecil, sistem tetap mengalokasikan seperti "buku besar pengelola arsip"—ruang yang dihemat SWA terbuang percuma, tidak benar-benar dihemat.
Tim Luo Fulili memisahkan KVCache menjadi dua pool terpisah. 10 layer Full Attention memakai "pool besar" yang dialokasikan sesuai panjang penuh; 60 layer SWA memakai "pool kecil" yang hanya dialokasikan untuk jendela 128 token.
Bayangkan, perusahaan memberi setiap karyawan sebuah "lemari arsip yang mampu menyimpan dokumen 100 tahun"—padahal 60 karyawan sebenarnya hanya butuh "lemari kecil untuk satu minggu dokumen", dan 99% ruang di lemari besar itu kosong. Pendekatan baru adalah mengalokasikan sesuai kebutuhan nyata. Hasilnya, kantor bisa menampung lebih dari 5 kali lipat karyawan—GPU yang sama bisa melayani 5 kali lipat pengguna secara bersamaan.
Langkah ini terlihat sederhana, tapi tanpa ini, keunggulan arsitektur SWA akan sia-sia.
Proyek ketiga: Membuat "pengulangan pengguna lama" benar-benar menembus cache
Memadatkan catatan ke 1/7 + ruang yang benar-benar bisa digunakan, langkah berikutnya adalah mengatasi masalah lama: tingkat keberhasilan cache prefix.
Banyak percakapan pengguna diawali dengan bagian yang sama—prompt sistem yang sama, basis kode yang sama, dokumen panjang yang sama. Sistem menyimpan hasil perhitungan ini, sehingga saat cocok lagi, bisa langsung pakai. mekanisme ini disebut cache prefix.
Tapi dalam mode SWA, ada jebakan: dua permintaan token yang sama, tidak berarti KV masih ada. Mungkin prefix sudah dihitung, tapi bagian di luar jendela SWA sudah terhapus. Jika sistem tetap menganggap "token sama berarti cache hit", akan membaca data yang tidak valid atau tertimpa, dan performa model langsung menurun.
Tim Luo Fulili meningkatkan aturan menjadi "sampai panjang aman jendela"—hanya menjamin bagian yang bisa lengkap diambil.
Bayangkan, perpustakaan punya 1 juta buku, kamu ingin pinjam trilogi "Tiga Tubuh". Arsitektur lama akan bilang "buku ini ada", tapi saat kamu ke rak, cuma tersisa sampul dan bagian pertama, dua bagian lainnya sudah dipinjam orang lain. "Pseudo hit" ini membuat kamu bolak-balik dan harus pinjam lagi. Sistem baru mengubah aturan jadi hanya menjamin bagian lengkap yang bisa diambil—pertama beri kamu bagian pertama, lalu bagian kedua dan ketiga akan diantar kemudian.
Terdengar lebih ketat dan tingkat keberhasilan menurun, tapi sebenarnya sebaliknya: karena SWA memadatkan KVCache ke 1/7, isi yang bisa disimpan jauh lebih banyak, dan tingkat keberhasilan nyata justru meningkat pesat.
Dalam blog mereka, Luo Fulili menyertakan angka pengujian nyata: di kerangka utama, tingkat keberhasilan cache server rata-rata 93%, pengguna dengan siklus panjang dan sering mencapai lebih dari 95%.
Kalikan angka ini: 95% permintaan "baca ulang" tidak perlu dihitung GPU, langsung diambil dari cache. Ini adalah dasar fisik diskon 99%.
Proyek keempat: Menyimpan "cache" ke SSD bawaan GPU
Dengan tingkat keberhasilan meningkat, pertanyaan berikutnya adalah: di mana cache ini disimpan.
Memori GPU (HBM) sangat mahal dan terbatas—satu mesin H100 delapan kartu hanya punya 640GB memori, tapi KVCache yang dibutuhkan MiMo bisa mencapai puluhan TB. Jadi harus ada hierarki: yang paling sering dipakai disimpan di memori GPU (L1), yang agak lama di RAM CPU (L2), data yang jarang di cache terdistribusi (L3).
Seperti mengelola uang. Uang tunai di dompet adalah memori GPU—bisa diambil kapan saja tapi terbatas. Saldo di kartu bank adalah RAM CPU—ambil sekali butuh waktu 30 detik, tapi bisa banyak. Deposito berjangka adalah cache terdistribusi L3—ambil 2 menit tapi murah.
Praktik umum industri adalah membangun klaster penyimpanan khusus untuk L3, dengan perangkat dan ruang khusus, bayar sewa bulanan.
Tim penyimpanan Xiaomi berbeda. Mereka mengembangkan GCache, cache terdistribusi yang langsung dipasang di SSD bawaan GPU—bercampur dengan tugas pelatihan dan inferensi di mesin yang sama.
Secara sederhana, orang lain menyewa gudang besar untuk menyimpan data dalam jumlah besar; Xiaomi menyadari bahwa garasi GPU sebenarnya kosong, dan langsung menyimpan data di sana. Menghemat biaya sewa.
Dalam blog mereka tertulis: "Biaya penyimpanan tambahan adalah 0."
Ini sangat berpengaruh. Dalam perhitungan kekuatan komputasi AI biasa, biaya penyimpanan adalah pengeluaran tetap—semakin besar model dan semakin banyak pengguna, tagihan penyimpanan makin besar. GCache memotong ini semua. Dengan SWA yang kecil dan tingkat keberhasilan cache 93-95%, masa hidup KVCache di L3 (TTL) dari beberapa menit menjadi beberapa jam bahkan hari—semakin lama TTL, semakin lebar jendela keberhasilan cache, dan diskon 99% semakin kokoh.
Proyek kelima: Mengarahkan permintaan cache ke jalur tercepat
Cache sudah bisa dipasang, dicek, dan murah, langkah terakhir adalah: bagaimana memastikan permintaan yang benar diarahkan ke mesin yang tepat.
Xiaomi mengembangkan sistem penjadwalan sendiri bernama LLM-Router, yang melakukan tiga hal:
Pertama, penjadwalan afinitas. Permintaan dengan prefix sama diarahkan ke mesin yang sama, agar cache bisa digunakan kembali maksimal.
Kedua, pengelompokan berdasarkan panjang. Permintaan pendek (0-64K), sedang (64K-256K), panjang (256K-1M) diproses di jalur berbeda, agar permintaan panjang tidak memperlambat yang pendek.
Ketiga, optimasi TTFT. Dalam antrean menunggu inferensi, prioritas diberikan ke permintaan yang biaya komputasinya kecil (artinya banyak cache hit)—menghindari mereka tertahan oleh permintaan input baru yang membutuhkan komputasi ulang.
Contohnya, di bandara, penumpang ke destinasi sama dikumpulkan di satu ruang tunggu, berbagi proses pengambilan bagasi—ini penjadwalan afinitas. Penumpang dengan koper kecil dan yang membawa tiga koper besar dipisah ke jalur pemeriksaan berbeda, agar yang cepat tidak tertahan yang lambat—ini pengelompokan berdasarkan panjang. Saat boarding, prioritas diberikan ke penumpang dengan koper kecil agar pesawat bisa lebih cepat lepas landas—ini optimasi TTFT.
Strategi penjadwalan ini secara nyata meningkatkan tingkat keberhasilan cache L2 sebesar 25%, throughput per mesin meningkat 30%, dan latensi P90 permintaan panjang turun 30%.
Intinya: GPU yang sama bisa melayani lebih banyak pengguna. Logika lain dari penurunan harga ini adalah: efisiensi output per unit kekuatan komputasi lebih tinggi, biaya per pengguna lebih rendah.
Proyek keenam: Membuat proses "mengetik" model lebih cepat
Lima proyek sebelumnya fokus mengoptimalkan sisi "baca"—mengurangi biaya pengguna mengulang membaca konteks sejarah mendekati nol. Proyek keenam fokus mengoptimalkan sisi "tulis"—yaitu proses model menghasilkan token berikutnya.
Model tradisional hanya bisa menghasilkan 1 token sekaligus. MiMo mendukung Multi-Token Prediction (MTP) tiga layer—memprediksi tiga token berikutnya sekaligus, dan jika prediksi tengahnya benar, langsung lompat ke token berikutnya tanpa hitung ulang.
Bayangkan, mengetik tradisional seperti mengetik satu huruf satu huruf—kamu harus tekan tombol 4 kali untuk "今天天气". MTP seperti fitur auto-complete yang menebak 1-2 huruf berikutnya—kalau tebakannya benar, kamu tidak perlu tekan lagi.
Dalam pengujian di skenario agentic, MTP MiMo mempercepat decoding 128 token pertama 2.3 kali, dan 128-256 token 1.5 kali.
Ini penting karena diskon 99% khusus untuk Input (Cache Hit), tapi saat melayani pengguna, input dan output terjadi dalam satu permintaan—kalau output tidak dihemat, biaya total hanya berkurang separuh. MTP membuat output bagian itu juga lebih murah, sehingga model keuntungan dari penurunan harga ini menjadi lengkap.
Menggabungkan keenam proyek ini menjadi rantai pengurangan biaya:
Arsitektur SWA → KVCache 1/7 → Pembebasan kapasitas melalui dua pool → GPU yang sama melayani 5+ kali lipat pengguna → Tingkat keberhasilan cache 93-95% → 95% permintaan tidak perlu dihitung → GCache nol biaya penyimpanan → Penjadwalan prioritas permintaan cache → MTP percepat generasi → Waktu GPU per permintaan turun secara signifikan → Biaya per permintaan turun lebih dari 95% → Penetapan harga turun 99%, margin laba tetap positif.
Jika salah satu langkah hilang, rantai ini akan terputus. Diskon 99% bukan sekadar angka pemasaran, melainkan hasil dari enam pilar engineering yang saling mendukung + verifikasi nyata di dunia nyata.
Melihat kembali interpretasi awal industri, masing-masing ada bagian kebenarannya. Dua tahun terakhir, perang harga antar perusahaan model besar di China memang nyata; laba Xiaomi yang terjun bebas dan investasi AI besar memang benar; DeepSeek yang menekan harga industri ke dasar juga benar.
Tapi, blog teknis Luo Fulili yang membeberkan detail secara lengkap dan sistematis, jelas bertujuan membalas narasi perang harga, dan menegaskan "masalah teknis adalah masalah teknis, pemasaran adalah pemasaran."
Dalam blog-nya, dia menulis bahwa efisiensi inferensi seri MiMo-V2.5 bukan berasal dari satu titik tunggal, melainkan hasil optimisasi multidimensi. Hybrid SWA memungkinkan prefill dan decode saling menguntungkan, tapi implementasi KVCache yang belum optimal justru bisa meningkatkan biaya di berbagai bagian. Untuk mencapai ini, tim MiMo secara sistematis merekonstruksi pengelolaan KVCache, caching berjenjang, pohon cache prefix, mengatasi masalah inti KVCache SWA, mengoptimalkan strategi penjadwalan dan jalur Prefill/Decode, dan melalui pengujian di dunia nyata, akhirnya merealisasikan keunggulan efisiensi teoritisnya ke lingkungan produksi. Dengan demikian, Hybrid SWA mampu menampilkan keunggulan arsitektur dalam inferensi panjang dan reasoning yang kuat sekaligus efisien. Kombinasi konfigurasi MoE dan berbagai optimisasi multimodal juga secara signifikan meningkatkan performa layanan inferensi online.
Ini adalah pendekatan sistematis engineering AI, yang juga menjadi referensi dan contoh pengurangan biaya yang patut diikuti industri.
Perang harga tidak perlu blog, tapi realisasi engineering harus nyata.