Mengapa model besar tidak bisa menulis "Ma Jiaqi"? Pemindaian seluruh daftar token MiniMax menemukan hampir 5% token terlupakan selama pelatihan lanjutan

Question

Menurut pemantauan Beating, MiniMax merilis blog teknologi yang mengungkap proses penyelidikan penyebab utama mengapa model besar seri M2 tidak dapat menghasilkan nama orang "马嘉祺". Penyidikan dimulai dari satu contoh kasus, akhirnya mengungkap masalah degenerasi sistemik yang mempengaruhi seluruh daftar token. Penyebab utamanya adalah tokenizer (komponen yang memecah teks menjadi unit pemrosesan model) yang saat pelatihan menggabungkan "嘉祺" menjadi satu token independen. Pada tahap pra-pelatihan, model melihat banyak teks dari internet dan mempelajari token ini; tetapi dalam data dialog pasca-pelatihan, sampel yang mengandung "嘉祺" kurang dari 5 buah. Selama proses pasca-pelatihan, token dengan frekuensi tinggi seperti penandaan tool_call, simbol kode, dan lain-lain terus memperbarui ruang vektor di sekitarnya, sehingga token dengan frekuensi rendah seperti "嘉祺" terdorong ke arah yang salah. Model masih "mengenali" 马嘉祺 dan dapat menjawab informasi terkait secara akurat, yang hilang hanyalah kemampuan untuk mengeluarkan token ini. Tim kemudian melakukan pemindaian lengkap terhadap sekitar 200.000 token dalam daftar lengkap, menemukan sekitar 4,9% token mengalami degenerasi yang signifikan. Degenerasi paling parah terjadi pada bahasa Jepang: 29,7% token bahasa Jepang mengalami degenerasi yang signifikan, jauh melebihi bahasa Korea 3,3%, Rusia 3,7%, Mandarin 3,9%, dan Inggris 3,5%. Di antara yang paling terdegradasi juga terdapat kata-kata spam SEO dari internet seperti "传奇私服" dan "无痛人流", yang mekanismenya sama dengan "嘉祺". Degenerasi parah pada bahasa Jepang juga mengungkap sebuah misteri lama. Sebelumnya, model kadang-kadang mencampurkan karakter Rusia atau Korea dalam dialog bahasa Jepang, tanpa pernah menemukan penyebabnya. Analisis kali ini menunjukkan bahwa setelah parameter token bahasa Jepang bergeser, token tersebut menjadi bingung dengan token dari bahasa lain dalam ruang vektor, yang menyebabkan token bahasa Jepang salah aktif (campur bahasa), dan juga mendorong token Mandarin frekuensi rendah yang berdekatan keluar dari rentang probabilitas normal (lupa token). Solusi perbaikannya adalah membuat data sintetis yang mencakup seluruh daftar token, sehingga model dilatih dengan tugas pengulangan sederhana agar setiap token dapat dipelajari. Hasilnya langsung terlihat: proporsi jawaban bahasa Jepang yang tercampur karakter Rusia turun dari 47% menjadi 1%, dan stabilitas output parameter seluruh daftar token (kesamaan kosinus) meningkat dari terendah 0,329 menjadi di atas 0,97.

Mengapa model besar tidak bisa menulis "Ma Jiaqi"? Pemindaian seluruh daftar token MiniMax menemukan hampir 5% token terlupakan selama pelatihan lanjutan

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan