MLE Bench 66.6% mendekati Gemini 3.1, dengan parameter token tunggal 9.8B mencapai tingkat ini, detail penggabungan FIFO berbingkai dan pohon prefix layak untuk dipelajari, efisiensi pelatihan urutan panjang ini telah diatasi oleh MiniMax

Lihat Asli
BlockBeatNews
Membongkar kartu tersembunyi: MiniMax merilis laporan teknologi M2, menjelaskan secara rinci dasar MoE dan sistem pelatihan Agen
Dokumen ini merangkum laporan teknologi seri M2 dari MiniMax, menggambarkan pengorbanan perhatian linier campuran M1 menjadi perhatian penuh, serta mitigasi biaya di sisi pelatihan dan inferensi untuk MTP, routing Sigmoid, dan Forge. Mengungkapkan untuk pertama kalinya mekanisme evolusi mandiri Forge dan M2.7 untuk agen RL dengan urutan panjang, menggunakan FIFO berbasis jendela dan penggabungan pohon prefix, dengan kecepatan pelatihan hingga 40 kali lipat pada urutan panjang. Loop tertutup evolusi mandiri M2.7 dapat menyelesaikan lebih dari 100 putaran analisis, modifikasi kode, pengujian, dan rollback, meningkatkan sekitar 30%. Dengan parameter token tunggal 9.8B, SWE-Pro mencapai 56.22%, MLE Bench 66.6%, mendekati Gemini 3.1.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan