GPU umum menjalankan 1T MoE melebihi seribu token, desain kolaboratif ini cukup menarik

Lihat Asli
CoinNetwork
Berita dari Coinjie.com, tim Xiaomi Mimo dan sistem optimisasi kompilasi AI Tilert mengumumkan peluncuran mode inferensi Mimo-v2.5-pro-ultraspeed. Pada satu node GPU umum standar dengan 8 kartu, berhasil mencapai kecepatan generasi ekstrem lebih dari 1.000 token/detik pada model ahli campuran (MoE) dengan 1 triliun parameter, dengan puncak sekitar 1.200 token/detik. Ini menandai bahwa tanpa menggunakan perangkat keras tidak konvensional seperti integrasi tingkat wafer atau chip SRAM khusus murni di atas chip, hanya dengan perangkat keras umum standar dan desain kolaboratif model-sistem, pertama kali melampaui kecepatan generasi 1 triliun token per model seribu token.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan