MiniMax open-source perpustakaan perhatian eksklusif Blackwell, bobot M3 diperkirakan akan dirilis hari Jumat ini

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating, Kepala hubungan pengembang MiniMax Ryan Lee mengumumkan bahwa perpustakaan perhatian berkinerja tinggi MiniMax Sparse Attention (MSA) untuk GPU NVIDIA Blackwell (SM100) telah resmi dirilis sebagai open source, menggunakan lisensi MIT. Ryan Lee juga menyatakan bahwa bobot MiniMax-M3 diperkirakan akan dirilis pada hari Jumat minggu ini. MSA telah diterapkan dalam inferensi konteks jutaan token MiniMax-M3, dengan menyaring KV Block yang paling relevan di setiap grup GQA, dan hanya melakukan perhitungan perhatian pada blok yang dipilih. Penelitian menunjukkan bahwa pada konteks 1 juta token, dibandingkan dengan GQA Dense dengan konfigurasi yang sama, MSA dapat mengurangi jumlah perhitungan perhatian sebesar 28,4 kali, dan mencapai percepatan pra-pengisian sebesar 14,2 kali serta percepatan dekoding sebesar 7,6 kali pada GPU H800. Versi open source mengintegrasikan dua implementasi, C++ JIT dan CuTe-DSL, dalam satu paket Python yang sama, serta menyediakan kernel Attention FlashDense dan Sparse Top-k Attention, mendukung berbagai format presisi seperti BF16, FP8, NVFP4, dan FP4. Saat ini, terutama ditujukan untuk deployment pada GPU NVIDIA Blackwell (SM100). (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan