Xiaomi Ungkapkan Detail Pelatihan Model 1T MiMo-V2-Pro: Ribuan GPU Digunakan, Tanpa Tingkatan Pekerjaan atau Tenggat Waktu

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh Dongcha Beating, Luo Fuli, kepala tim model besar Xiaomi, mengungkapkan dalam wawancara mendalam pertamanya bahwa model dasar MiMo-V2-Pro memiliki total jumlah parameter sebanyak 1T, menggunakan ribuan GPU untuk pelatihan. Dia percaya bahwa skala 1T adalah garis dasar untuk mencapai kinerja yang mendekati Claude Opus 4.6 dan mendapatkan akses ke fase berikutnya dari kompetisi agen. Secara teknis, versi Pro mendorong rasio perhatian global terhadap perhatian jendela geser ke rasio jarang ekstrem 7:1, mengendalikan biaya penalaran untuk teks panjang sambil memperluas jumlah parameter, dan terus menggunakan arsitektur MTP (Multi-Token Prediction) untuk memanfaatkan kekuatan komputasi berlebih demi percepatan inferensi. Di sisi manajemen, hanya sekitar 30 hingga 40 dari seratus anggota tim MiMo yang terlibat langsung dalam iterasi inti, tanpa tingkat pekerjaan yang mapan, pembagian kelompok yang jelas, atau tenggat waktu pengiriman. Ketika menghadapi masalah numerik yang tidak stabil seperti perubahan mendadak dalam kehilangan pelatihan, tim memilih untuk menghentikan pelatihan sementara untuk pemecahan masalah, bahkan jika itu berarti berhenti selama satu atau dua minggu dan menimbulkan biaya komputasi jutaan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan