Xiaomi mengungkap detail pelatihan model 1T MiMo-V2-Pro: menggunakan ribuan kartu grafis, tanpa hierarki jabatan dan tanpa tenggat waktu.

robot
Pembuatan abstrak sedang berlangsung
ME News berita, 24 April (UTC+8), menurut pemantauan Dongcha Beating, kepala tim model besar Xiaomi, Luo Fuli, mengungkapkan dalam wawancara mendalam pertamanya bahwa total parameter dasar model MiMo-V2-Pro mencapai 1T, dan pelatihan menggunakan ribuan GPU.
Dia berpendapat bahwa skala 1T adalah batas bawah saat ini untuk mencapai tingkat yang mendekati Claude Opus 4.6 dan mendapatkan tiket masuk ke kompetisi Agen tahap berikutnya.
Pada tingkat teknis, versi Pro mendorong rasio antara perhatian global dan perhatian jendela geser ke rasio sparsity ekstrem 7:1, mengendalikan biaya inferensi teks panjang saat memperluas jumlah parameter, dan terus menggunakan arsitektur MTP (Multi-Token Prediction) untuk memanfaatkan kelebihan daya komputasi guna mempercepat inferensi.
Pada tingkat manajemen, dari tim MiMo yang terdiri dari sekitar seratus orang, hanya tiga puluh hingga empat puluh orang yang secara langsung terlibat dalam iterasi inti. Tim tidak memiliki jenjang jabatan, juga tidak ada pembagian kelompok yang jelas dan tenggat waktu pengiriman.
Ketika menghadapi masalah nilai yang tidak stabil seperti lompatan loss pelatihan, tim akan memilih untuk menghentikan pelatihan dan melakukan pemeriksaan, bahkan jika harus menghentikan selama satu atau dua minggu dan menghabiskan biaya komputasi jutaan.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan