Moonshot AI memperluas teknologi pemisahan Prefill/Decode ke pusat data lintas dan perangkat keras heterogen

ME News Tin tức, 18 April (UTC+8), Tim Moonshot AI baru-baru ini mengumumkan bahwa teknologi pemisahan Prefill (pengisian awal) dan Decode (dekode) mereka telah berhasil diperluas dari satu klaster ke lingkungan pusat data lintas dan perangkat keras heterogen. Menurut pendapat dalam artikel tersebut, langkah ini diharapkan dapat secara signifikan mengurangi biaya inferensi setiap token. Sebelumnya, perluasan teknologi ini terhambat oleh masalah biaya transmisi cache KV. Terobosan kali ini bergantung pada model campuran mereka Kimi Linear. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 10
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-ad8b77bd
· 10jam yang lalu
Dari klaster tunggal ke lintas DC, tingkat kesulitan engineering bukanlah skala yang sama
Lihat AsliBalas0
CheckTheBlockchainBefore
· 20jam yang lalu
Model campuran secara spesifik bagaimana cara mencampurnya? Apakah MOE atau arsitektur lain
Lihat AsliBalas0
FeeTakerPhD
· 21jam yang lalu
Akhirnya menunggu deployment lintas DC, apakah biaya transfer cache KV benar-benar bisa ditekan setelah melewati tahap ini?
Lihat AsliBalas0
PopFruitCollage
· 21jam yang lalu
Lintas data center + heterogen, kompleksitas operasional meledak, kan?
Lihat AsliBalas0
ExitLiqNow
· 21jam yang lalu
Sebelumnya kartu transfer cache KV, sekarang telah mencapai tonggak sejarah baru
Lihat AsliBalas0
OwlAuthorizationMonitor
· 21jam yang lalu
Setiap token lebih murah, jumlah besar adalah uang asli yang nyata
Lihat AsliBalas0
TheStoneBehindTheVolcano
· 21jam yang lalu
Moonshot ini memang harus tetap keren dalam mengatasi utang teknologi ini
Lihat AsliBalas0
ButterStop-LossLine
· 21jam yang lalu
Pengurangan biaya adalah kunci utama, menunggu data pengujian nyata
Lihat AsliBalas0
LatencyLullaby
· 21jam yang lalu
Pengisian awal dan pemisahan dilakukan secara terpisah, apakah penundaan malah akan menjadi lebih tinggi?
Lihat AsliBalas0
MechanicalHummingbirdGlass
· 21jam yang lalu
Model campuran Kimi ini cukup bagus, bisa dijalankan di perangkat keras heterogen
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan