Xiaomi MiMo pertama kali mengungkapkan detail teknologi optimisasi seluruh rantai sistem inferensi model terbuka

robot
Pembuatan abstrak sedang berlangsung
Berita dari Mars Finance 30 Mei, Xiaomi secara resmi mengumumkan rencana optimisasi seluruh rangkaian sistem inferensi model MiMo-V2.5. Tim mengerjakan rekonstruksi sistematis dari manajemen KVCache, cache berjenjang, cache prefix hingga strategi penjadwalan dan jalur Prefill/Decode, dengan fokus pada arsitektur gabungan Hybrid SWA + MoE + multimodal. Ukuran penyimpanan KVCache dikompresi hingga sekitar 1/7 dari solusi tingkat yang sama, sehingga biaya inferensi dalam skenario urutan panjang berkurang secara signifikan — ini adalah dasar teknologi utama dari penurunan harga kali ini. Pada 27 Mei, API seri MiMo-V2.5 selesai melakukan penurunan harga permanen, dengan diskon tertinggi mencapai 99%, tanpa membedakan panjang input. (Pengamatan sudut lebar)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 9
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GasFeesForNightRuns
· 5jam yang lalu
Xiaomi kali ini memangkas biaya penjualan hingga ke kaki, apakah pengurangan 99% ini serius?
Lihat AsliBalas0
QueuePosition
· 5jam yang lalu
Dari chip hingga kerangka kerja hingga penetapan harga API, seluruh rantai terhubung, strategi Xiaomi ini sangat mirip dengan jalur nilai untuk pasar ponsel tahun-tahun lalu
Lihat AsliBalas0
PerpColdHands
· 5jam yang lalu
Menunggu pengujian langsung, jika rasio kompresi KVCache sebesar 1/7 benar adanya, batasan memori GPU bisa bernafas lega.
Lihat AsliBalas0
TheRedTelephoneBoothInTheRuins
· 5jam yang lalu
Arsitektur MoE + perhatian SWA, konfigurasi ini juga termasuk dalam tingkat teratas di dunia open source, kali ini Xiaomi cukup terbuka dalam mengungkapkan teknologi mereka.
Lihat AsliBalas0
BlueLakeOverlooker
· 6jam yang lalu
Struktur biaya penalaran telah berubah, titik acuan harga aplikasi hilir juga harus dinilai ulang, seluruh ekosistem mungkin perlu dirombak ulang
Lihat AsliBalas0
ResilientGoldfish
· 6jam yang lalu
Tidak membedakan panjang input adalah fitur yang sangat keren, pengguna teks panjang akan sangat senang, tidak perlu lagi menghitung token secara cermat.
Lihat AsliBalas0
GlassDomeUniverse
· 6jam yang lalu
Prefill/Decode jalur semuanya terganggu, desain cache berjenjang + cache prefix sangat rinci, tampaknya benar-benar telah diasah melalui bisnis nyata
Lihat AsliBalas0
SecondaryMarketDeserter
· 6jam yang lalu
Xiaomi ini akan menjadikan inferensi model besar menjadi harga murah? Penurunan harga API sebesar 99% membuat pesaing lain bagaimana?
Lihat AsliBalas0
Semi-MeltedIceCream
· 6jam yang lalu
27 Mei Harga Diskon Permanen Tanpa Memedulikan Panjang Input—Strategi Penetapan Harga ini langsung mengubah permainan lama berbasis token
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan