Mengapa model besar tidak bisa menulis "Ma Jiaqi"? Pemindaian seluruh daftar token MiniMax menemukan hampir 5% token terlupakan selama pelatihan lanjutan

Menurut pemantauan Beating, MiniMax merilis blog teknologi yang mengungkap proses penyelidikan penyebab utama mengapa model besar seri M2 tidak dapat menghasilkan nama orang “马嘉祺”. Penyidikan dimulai dari satu contoh kasus, akhirnya mengungkap masalah degenerasi sistemik yang mempengaruhi seluruh daftar token. Penyebab utamanya adalah tokenizer (komponen yang memecah teks menjadi unit pemrosesan model) yang saat pelatihan menggabungkan “嘉祺” menjadi satu token independen. Pada tahap pra-pelatihan, model melihat banyak teks dari internet dan mempelajari token ini; tetapi dalam data dialog pasca-pelatihan, sampel yang mengandung “嘉祺” kurang dari 5 buah. Selama proses pasca-pelatihan, token dengan frekuensi tinggi seperti penandaan tool_call, simbol kode, dan lain-lain terus memperbarui ruang vektor di sekitarnya, sehingga token dengan frekuensi rendah seperti “嘉祺” terdorong ke arah yang salah. Model masih “mengenali” 马嘉祺 dan dapat menjawab informasi terkait secara akurat, yang hilang hanyalah kemampuan untuk mengeluarkan token ini. Tim kemudian melakukan pemindaian lengkap terhadap sekitar 200.000 token dalam daftar lengkap, menemukan sekitar 4,9% token mengalami degenerasi yang signifikan. Degenerasi paling parah terjadi pada bahasa Jepang: 29,7% token bahasa Jepang mengalami degenerasi yang signifikan, jauh melebihi bahasa Korea 3,3%, Rusia 3,7%, Mandarin 3,9%, dan Inggris 3,5%. Di antara yang paling terdegradasi juga terdapat kata-kata spam SEO dari internet seperti “传奇私服” dan “无痛人流”, yang mekanismenya sama dengan “嘉祺”. Degenerasi parah pada bahasa Jepang juga mengungkap sebuah misteri lama. Sebelumnya, model kadang-kadang mencampurkan karakter Rusia atau Korea dalam dialog bahasa Jepang, tanpa pernah menemukan penyebabnya. Analisis kali ini menunjukkan bahwa setelah parameter token bahasa Jepang bergeser, token tersebut menjadi bingung dengan token dari bahasa lain dalam ruang vektor, yang menyebabkan token bahasa Jepang salah aktif (campur bahasa), dan juga mendorong token Mandarin frekuensi rendah yang berdekatan keluar dari rentang probabilitas normal (lupa token). Solusi perbaikannya adalah membuat data sintetis yang mencakup seluruh daftar token, sehingga model dilatih dengan tugas pengulangan sederhana agar setiap token dapat dipelajari. Hasilnya langsung terlihat: proporsi jawaban bahasa Jepang yang tercampur karakter Rusia turun dari 47% menjadi 1%, dan stabilitas output parameter seluruh daftar token (kesamaan kosinus) meningkat dari terendah 0,329 menjadi di atas 0,97.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan