Xiaomi MiMo diskon 99% bukan hanya pemasaran! Luo Fuli membalas dengan X untuk mengecam para pesimis

null

Tulisan | Xiang Xianzhi

Luo Fulili mengirimkan sebuah cuitan di X, untuk menutup gelombang penurunan harga Xiaomi MiMo.

Pada 26 Mei, akun resmi Xiaomi MiMo merilis pengumuman di X: Seri API MiMo-V2.5 akan diskon permanen, dengan diskon tertinggi 99%. Semua harga konteks disamakan, paket Token ditingkatkan 5-8 kali lipat.

Pengumuman ini menyebar selama seminggu di komunitas AI domestik. Respon industri terbagi menjadi beberapa kubu. Kubu terbesar mengatakan ini adalah "gelombang perang harga lagi"—dua tahun terakhir dari Zhipu, DeepSeek, Byte Doudou, hingga Alibaba Tongyi, model besar domestik bergiliran menurunkan harga, siapa yang tidak ikut kompetisi.

Kubu lain melihatnya secara pesimis: Xiaomi baru saja mengumumkan laba tahun ini terjun bebas, dan di saat yang sama masih membakar 600 miliar di AI, API langsung dipotong sembilan puluh persen—ini tipikal "rugi demi merebut pasar". Ada juga yang berpendapat ini adalah efek DeepSeek yang berlanjut—yang menarik standar penetapan harga seluruh industri ke dasar, siapa pun yang tidak mengikuti akan tersingkir.

Sebagai kepala MiMo, Luo Fulili langsung mengeluarkan sebuah blog teknis sepanjang 5000 kata, membeberkan secara terbuka rincian proyek penurunan harga tersebut.

“Lihat, ini adalah kemampuan engineering nyata, bukan sekadar strategi pemasaran.”

Agar memahami apa yang dikatakan Luo Fulili, pertama-tama harus tahu apa yang sebenarnya turun 99%.

Ini bukan penurunan harga seluruh model. Diskon 99% khusus untuk satu kategori bernama Input (Cache Hit)—yaitu bagian "pengguna mengulang membaca konteks sejarah dalam percakapan panjang". Input baru (No Cache Hit) diskonnya jauh lebih kecil, output model (Output) diskonnya paling kecil.

Kalau kamu anggap model sebagai sebuah kedai kopi, hal ini jadi mudah dipahami.

Kamu pesan latte setengah gula, kedai kopi punya dua cara: setiap kali menggiling biji dari awal dan menuang sirup dan susu, bahan dan tenaga kerja dibayar sekali; tapi model tahu bahwa kamu setiap hari minum latte setengah gula yang sama, jadi langsung buat satu teko besar dan simpan di freezer, nanti tinggal ambil satu gelas. MiMo kali ini melakukan yang kedua—mengubah bagian pengguna yang diulang dari "perhitungan langsung" menjadi "pengambilan langsung", sehingga biaya nyata bagian ini mendekati 0, dan otomatis bisa diberi diskon 99%.

Untuk bisa "pengambilan langsung", blog teknis menjelaskan enam proyek engineering, masing-masing tidak boleh absen. Mari kita bahas satu per satu.

Proyek pertama: "Memori" model dipadatkan menjadi 1/7

Saat berinteraksi, setiap token model harus menghitung "status tengah" dan menyimpannya untuk digunakan berikutnya. Ini disebut KVCache—bisa dipahami sebagai "catatan memori jangka pendek" model. Setiap kali bicara, model mencatat ringkasan kalimat tersebut di catatan, sehingga berikutnya langsung merujuk ke catatan itu tanpa harus mendengar ulang semua yang pernah dikatakan.

Model tradisional melakukan "Full Attention" di setiap layer—setiap token harus melihat seluruh rangkaian token dalam percakapan, sehingga catatan memori semakin tebal. MiMo-V2.5-Pro mengubah arsitektur: dari 70 layer, 60 layer hanya melihat 128 token terakhir (SWA, Sliding Window Attention), hanya 10 layer sebagai "pengelola arsip" yang melihat seluruhnya.

Hasilnya, ukuran KVCache langsung dipadatkan menjadi 1/7 dari Full Attention, dan jumlah komputasi juga sama.

Ini adalah fondasi pertama pengurangan biaya. Bayangkan, sebelumnya setiap karyawan harus mengingat semua catatan rapat, akhirnya otaknya kelelahan dan efisiensi rendah. Aturan baru mengurangi beban otak 60 karyawan menjadi 1/7, hanya menyisakan 10 pengelola arsip yang mengurus seluruh sejarah—kemampuan memori perusahaan tidak berkurang, tapi efisiensi meningkat 7 kali lipat.

Proyek kedua: Menggunakan ruang yang dihemat SWA secara nyata

Secara arsitektur, memadatkan catatan ke 1/7 adalah langkah pertama, tapi untuk benar-benar mewujudkan "1/7 secara teori" menjadi "1/7 secara nyata", ada tantangan.

Sistem KVCache tradisional mengalokasikan memori secara seragam untuk semua layer berdasarkan "kemungkinan penggunaan maksimum". Artinya: meskipun 60 layer SWA hanya membutuhkan buku kecil, sistem tetap mengalokasikan seperti "buku besar pengelola arsip"—ruang yang dihemat SWA terbuang percuma, tidak benar-benar dihemat.

Tim Luo Fulili memisahkan KVCache menjadi dua pool terpisah. 10 layer Full Attention memakai "pool besar" yang dialokasikan sesuai panjang penuh; 60 layer SWA memakai "pool kecil" yang hanya dialokasikan untuk jendela 128 token.

Bayangkan, perusahaan memberi setiap karyawan sebuah "lemari arsip yang mampu menyimpan dokumen 100 tahun"—padahal 60 karyawan sebenarnya hanya butuh "lemari kecil untuk satu minggu dokumen", dan 99% ruang di lemari besar itu kosong. Pendekatan baru adalah mengalokasikan sesuai kebutuhan nyata. Hasilnya, kantor bisa menampung lebih dari 5 kali lipat karyawan—GPU yang sama bisa melayani 5 kali lipat pengguna secara bersamaan.

Langkah ini terlihat sederhana, tapi tanpa ini, keunggulan arsitektur SWA akan sia-sia.

Proyek ketiga: Membuat "pengulangan pengguna lama" benar-benar menembus cache

Memadatkan catatan ke 1/7 + ruang yang benar-benar bisa digunakan, langkah berikutnya adalah mengatasi masalah lama: tingkat keberhasilan cache prefix.

Banyak percakapan pengguna diawali dengan bagian yang sama—prompt sistem yang sama, basis kode yang sama, dokumen panjang yang sama. Sistem menyimpan hasil perhitungan ini, sehingga saat cocok lagi, bisa langsung pakai. mekanisme ini disebut cache prefix.

Tapi dalam mode SWA, ada jebakan: dua permintaan token yang sama, tidak berarti KV masih ada. Mungkin prefix sudah dihitung, tapi bagian di luar jendela SWA sudah terhapus. Jika sistem tetap menganggap "token sama berarti cache hit", akan membaca data yang tidak valid atau tertimpa, dan performa model langsung menurun.

Tim Luo Fulili meningkatkan aturan menjadi "sampai panjang aman jendela"—hanya menjamin bagian yang bisa lengkap diambil.

Bayangkan, perpustakaan punya 1 juta buku, kamu ingin pinjam trilogi "Tiga Tubuh". Arsitektur lama akan bilang "buku ini ada", tapi saat kamu ke rak, cuma tersisa sampul dan bagian pertama, dua bagian lainnya sudah dipinjam orang lain. "Pseudo hit" ini membuat kamu bolak-balik dan harus pinjam lagi. Sistem baru mengubah aturan jadi hanya menjamin bagian lengkap yang bisa diambil—pertama beri kamu bagian pertama, lalu bagian kedua dan ketiga akan diantar kemudian.

Terdengar lebih ketat dan tingkat keberhasilan menurun, tapi sebenarnya sebaliknya: karena SWA memadatkan KVCache ke 1/7, isi yang bisa disimpan jauh lebih banyak, dan tingkat keberhasilan nyata justru meningkat pesat.

Dalam blog mereka, Luo Fulili menyertakan angka pengujian nyata: di kerangka utama, tingkat keberhasilan cache server rata-rata 93%, pengguna dengan siklus panjang dan sering mencapai lebih dari 95%.

Kalikan angka ini: 95% permintaan "baca ulang" tidak perlu dihitung GPU, langsung diambil dari cache. Ini adalah dasar fisik diskon 99%.

Proyek keempat: Menyimpan "cache" ke SSD bawaan GPU

Dengan tingkat keberhasilan meningkat, pertanyaan berikutnya adalah: di mana cache ini disimpan.

Memori GPU (HBM) sangat mahal dan terbatas—satu mesin H100 delapan kartu hanya punya 640GB memori, tapi KVCache yang dibutuhkan MiMo bisa mencapai puluhan TB. Jadi harus ada hierarki: yang paling sering dipakai disimpan di memori GPU (L1), yang agak lama di RAM CPU (L2), data yang jarang di cache terdistribusi (L3).

Seperti mengelola uang. Uang tunai di dompet adalah memori GPU—bisa diambil kapan saja tapi terbatas. Saldo di kartu bank adalah RAM CPU—ambil sekali butuh waktu 30 detik, tapi bisa banyak. Deposito berjangka adalah cache terdistribusi L3—ambil 2 menit tapi murah.

Praktik umum industri adalah membangun klaster penyimpanan khusus untuk L3, dengan perangkat dan ruang khusus, bayar sewa bulanan.

Tim penyimpanan Xiaomi berbeda. Mereka mengembangkan GCache, cache terdistribusi yang langsung dipasang di SSD bawaan GPU—bercampur dengan tugas pelatihan dan inferensi di mesin yang sama.

Secara sederhana, orang lain menyewa gudang besar untuk menyimpan data dalam jumlah besar; Xiaomi menyadari bahwa garasi GPU sebenarnya kosong, dan langsung menyimpan data di sana. Menghemat biaya sewa.

Dalam blog mereka tertulis: "Biaya penyimpanan tambahan adalah 0."

Ini sangat berpengaruh. Dalam perhitungan kekuatan komputasi AI biasa, biaya penyimpanan adalah pengeluaran tetap—semakin besar model dan semakin banyak pengguna, tagihan penyimpanan makin besar. GCache memotong ini semua. Dengan SWA yang kecil dan tingkat keberhasilan cache 93-95%, masa hidup KVCache di L3 (TTL) dari beberapa menit menjadi beberapa jam bahkan hari—semakin lama TTL, semakin lebar jendela keberhasilan cache, dan diskon 99% semakin kokoh.

Proyek kelima: Mengarahkan permintaan cache ke jalur tercepat

Cache sudah bisa dipasang, dicek, dan murah, langkah terakhir adalah: bagaimana memastikan permintaan yang benar diarahkan ke mesin yang tepat.

Xiaomi mengembangkan sistem penjadwalan sendiri bernama LLM-Router, yang melakukan tiga hal:

Pertama, penjadwalan afinitas. Permintaan dengan prefix sama diarahkan ke mesin yang sama, agar cache bisa digunakan kembali maksimal.

Kedua, pengelompokan berdasarkan panjang. Permintaan pendek (0-64K), sedang (64K-256K), panjang (256K-1M) diproses di jalur berbeda, agar permintaan panjang tidak memperlambat yang pendek.

Ketiga, optimasi TTFT. Dalam antrean menunggu inferensi, prioritas diberikan ke permintaan yang biaya komputasinya kecil (artinya banyak cache hit)—menghindari mereka tertahan oleh permintaan input baru yang membutuhkan komputasi ulang.

Contohnya, di bandara, penumpang ke destinasi sama dikumpulkan di satu ruang tunggu, berbagi proses pengambilan bagasi—ini penjadwalan afinitas. Penumpang dengan koper kecil dan yang membawa tiga koper besar dipisah ke jalur pemeriksaan berbeda, agar yang cepat tidak tertahan yang lambat—ini pengelompokan berdasarkan panjang. Saat boarding, prioritas diberikan ke penumpang dengan koper kecil agar pesawat bisa lebih cepat lepas landas—ini optimasi TTFT.

Strategi penjadwalan ini secara nyata meningkatkan tingkat keberhasilan cache L2 sebesar 25%, throughput per mesin meningkat 30%, dan latensi P90 permintaan panjang turun 30%.

Intinya: GPU yang sama bisa melayani lebih banyak pengguna. Logika lain dari penurunan harga ini adalah: efisiensi output per unit kekuatan komputasi lebih tinggi, biaya per pengguna lebih rendah.

Proyek keenam: Membuat proses "mengetik" model lebih cepat

Lima proyek sebelumnya fokus mengoptimalkan sisi "baca"—mengurangi biaya pengguna mengulang membaca konteks sejarah mendekati nol. Proyek keenam fokus mengoptimalkan sisi "tulis"—yaitu proses model menghasilkan token berikutnya.

Model tradisional hanya bisa menghasilkan 1 token sekaligus. MiMo mendukung Multi-Token Prediction (MTP) tiga layer—memprediksi tiga token berikutnya sekaligus, dan jika prediksi tengahnya benar, langsung lompat ke token berikutnya tanpa hitung ulang.

Bayangkan, mengetik tradisional seperti mengetik satu huruf satu huruf—kamu harus tekan tombol 4 kali untuk "今天天气". MTP seperti fitur auto-complete yang menebak 1-2 huruf berikutnya—kalau tebakannya benar, kamu tidak perlu tekan lagi.

Dalam pengujian di skenario agentic, MTP MiMo mempercepat decoding 128 token pertama 2.3 kali, dan 128-256 token 1.5 kali.

Ini penting karena diskon 99% khusus untuk Input (Cache Hit), tapi saat melayani pengguna, input dan output terjadi dalam satu permintaan—kalau output tidak dihemat, biaya total hanya berkurang separuh. MTP membuat output bagian itu juga lebih murah, sehingga model keuntungan dari penurunan harga ini menjadi lengkap.

Menggabungkan keenam proyek ini menjadi rantai pengurangan biaya:

Arsitektur SWA → KVCache 1/7 → Pembebasan kapasitas melalui dua pool → GPU yang sama melayani 5+ kali lipat pengguna → Tingkat keberhasilan cache 93-95% → 95% permintaan tidak perlu dihitung → GCache nol biaya penyimpanan → Penjadwalan prioritas permintaan cache → MTP percepat generasi → Waktu GPU per permintaan turun secara signifikan → Biaya per permintaan turun lebih dari 95% → Penetapan harga turun 99%, margin laba tetap positif.

Jika salah satu langkah hilang, rantai ini akan terputus. Diskon 99% bukan sekadar angka pemasaran, melainkan hasil dari enam pilar engineering yang saling mendukung + verifikasi nyata di dunia nyata.

Melihat kembali interpretasi awal industri, masing-masing ada bagian kebenarannya. Dua tahun terakhir, perang harga antar perusahaan model besar di China memang nyata; laba Xiaomi yang terjun bebas dan investasi AI besar memang benar; DeepSeek yang menekan harga industri ke dasar juga benar.

Tapi, blog teknis Luo Fulili yang membeberkan detail secara lengkap dan sistematis, jelas bertujuan membalas narasi perang harga, dan menegaskan "masalah teknis adalah masalah teknis, pemasaran adalah pemasaran."

Dalam blog-nya, dia menulis bahwa efisiensi inferensi seri MiMo-V2.5 bukan berasal dari satu titik tunggal, melainkan hasil optimisasi multidimensi. Hybrid SWA memungkinkan prefill dan decode saling menguntungkan, tapi implementasi KVCache yang belum optimal justru bisa meningkatkan biaya di berbagai bagian. Untuk mencapai ini, tim MiMo secara sistematis merekonstruksi pengelolaan KVCache, caching berjenjang, pohon cache prefix, mengatasi masalah inti KVCache SWA, mengoptimalkan strategi penjadwalan dan jalur Prefill/Decode, dan melalui pengujian di dunia nyata, akhirnya merealisasikan keunggulan efisiensi teoritisnya ke lingkungan produksi. Dengan demikian, Hybrid SWA mampu menampilkan keunggulan arsitektur dalam inferensi panjang dan reasoning yang kuat sekaligus efisien. Kombinasi konfigurasi MoE dan berbagai optimisasi multimodal juga secara signifikan meningkatkan performa layanan inferensi online.

Ini adalah pendekatan sistematis engineering AI, yang juga menjadi referensi dan contoh pengurangan biaya yang patut diikuti industri.

Perang harga tidak perlu blog, tapi realisasi engineering harus nyata.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 10
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
MidnightReconciler
· 3jam yang lalu
Penamaan MiMo-V2.5 ini, rasanya nomor versinya hampir tidak cukup lagi.
Lihat AsliBalas0
PaperfoldDao
· 3jam yang lalu
Keuntungan Xiaomi bahkan terjun bebas, tetapi tetap membakar 60 miliar, CEO Lei menunjukkan tekad bulat dalam All in AI.
Lihat AsliBalas0
NeonMint
· 4jam yang lalu
Penetapan harga yang seragam terdengar adil, pengguna dalam skenario teks panjang sangat senang, pengguna teks pendek mungkin merasa mereka menyubsidi orang lain.
Lihat AsliBalas0
MosaicButterfly
· 5jam yang lalu
Mengorbankan keuntungan untuk merebut pasar, pernyataan ini pernah didengar juga pada masa sepeda berbagi, dan akhirnya semua orang tahu hasilnya.
Lihat AsliBalas0
GateUser-e3701961
· 5jam yang lalu
Paket Token meningkat 5-8 kali lipat, jika diterjemahkan ke bahasa manusia artinya sebelumnya membeli 1 sekarang diberikan 8, tapi jika tidak digunakan apakah itu termasuk lock-up tersembunyi?
Lihat AsliBalas0
SecondaryMarketDeserter
· 5jam yang lalu
Penurunan sebesar 99%, angka ini terlihat seperti iklan promosi, apakah struktur biaya sebenarnya mampu bertahan?
Lihat AsliBalas0
GateUser-0b71fc11
· 5jam yang lalu
Luo Fuli berkata memberi tanda titik, tapi aku merasa itu lebih seperti tanda titik dua, karena ada pertunjukan besar di belakangnya.
Lihat AsliBalas0
HedgeHedgeBaby
· 5jam yang lalu
Nama MiMo ini selalu membuat saya membacanya sebagai mimo, seperti sejenis hewan pengerat kecil.
Lihat AsliBalas0
ReorgSurvivor
· 5jam yang lalu
Seluruh minggu ini, dunia AI domestik ramai dibahas, sementara di luar negeri di X malah tidak ada gema, narasi ekspor harus lebih dikuatkan lagi.
Lihat AsliBalas0
ZeroSlippage
· 5jam yang lalu
Luo Fuli keluar untuk memadamkan api tepat waktu.
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan