Abstrak: Wawancara dengan Luo Fuli menguraikan Xiaomi's MiMo-V2-Pro, sebuah model dengan triliunan parameter dan berat GPU yang menargetkan kemampuan setara Claude Opus 4.6. Model ini menggunakan perhatian jarang ekstrem dengan MTP; risiko operasional termasuk tim yang ramping dan kurang terstruktur yang menghentikan pelatihan saat kerugian melonjak, sehingga menimbulkan biaya besar.MiMo-V2-Pro dilaporkan memiliki 1T parameter yang dilatih pada ribuan GPU, bertujuan mencapai performa setara Claude Opus 4.6. Model ini menggunakan perhatian jarang ekstrem (7:1) dengan MTP; tim kecil menghentikan pelatihan yang tidak stabil untuk troubleshooting, dengan risiko biaya jutaan.

AirdropBlackHole

2026-04-24 06:31:18

Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh Dongcha Beating, Luo Fuli, kepala tim model besar Xiaomi, mengungkapkan dalam wawancara mendalam pertamanya bahwa model dasar MiMo-V2-Pro memiliki total jumlah parameter sebanyak 1T, menggunakan ribuan GPU untuk pelatihan. Dia percaya bahwa skala 1T adalah garis dasar untuk mencapai kinerja yang mendekati Claude Opus 4.6 dan mendapatkan akses ke fase berikutnya dari kompetisi agen. Secara teknis, versi Pro mendorong rasio perhatian global terhadap perhatian jendela geser ke rasio jarang ekstrem 7:1, mengendalikan biaya penalaran untuk teks panjang sambil memperluas jumlah parameter, dan terus menggunakan arsitektur MTP (Multi-Token Prediction) untuk memanfaatkan kekuatan komputasi berlebih demi percepatan inferensi. Di sisi manajemen, hanya sekitar 30 hingga 40 dari seratus anggota tim MiMo yang terlibat langsung dalam iterasi inti, tanpa tingkat pekerjaan yang mapan, pembagian kelompok yang jelas, atau tenggat waktu pengiriman. Ketika menghadapi masalah numerik yang tidak stabil seperti perubahan mendadak dalam kehilangan pelatihan, tim memilih untuk menghentikan pelatihan sementara untuk pemecahan masalah, bahkan jika itu berarti berhenti selama satu atau dua minggu dan menimbulkan biaya komputasi jutaan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
156.83K Popularitas
#
CryptoMarketSeesVolatility
222.91K Popularitas
#
IsraelStrikesIranBTCPlunges
31.65K Popularitas
#
rsETHAttackUpdate
68.69K Popularitas
#
US-IranTalksStall
176.02K Popularitas

Sematkan

peta situs

Xiaomi Ungkapkan Detail Pelatihan Model 1T MiMo-V2-Pro: Ribuan GPU Digunakan, Tanpa Tingkatan Pekerjaan atau Tenggat Waktu

Topik Trending

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Sematkan