Mengapa model besar tidak bisa menulis "Ma Jiaqi"? Pemindaian seluruh daftar token MiniMax menemukan hampir 5% token terlupakan selama pelatihan lanjutan

Menurut pemantauan Beating Monitoring, MiniMax merilis blog teknologi yang mengungkap proses penyelidikan penyebab utama ketidakmampuan model seri M2 untuk menghasilkan nama orang “马嘉祺”. Penyidikan dimulai dari sebuah kasus tunggal, akhirnya mengungkap masalah degenerasi sistemik yang mempengaruhi seluruh daftar token.

Penyebab utamanya adalah tokenizer (komponen yang memecah teks menjadi unit proses model) yang saat pelatihan menggabungkan “嘉祺” menjadi token independen. Pada tahap pra-pelatihan, model melihat banyak teks dari internet dan mempelajari token ini; tetapi dalam data dialog pasca-pelatihan, sampel yang mengandung “嘉祺” kurang dari 5 buah. Selama proses pasca-pelatihan, token dengan frekuensi tinggi seperti penanda tool_call, simbol kode, dan lain-lain terus memperbarui ruang vektor di sekitarnya, sehingga token dengan frekuensi rendah seperti “嘉祺” terdorong ke arah yang salah. Model masih “mengenali” 马嘉祺 dan mampu menjawab informasi terkait secara akurat, tetapi kemampuan untuk mengeluarkan token ini hilang.

Tim kemudian melakukan pemindaian lengkap terhadap sekitar 200.000 token dalam daftar lengkap, menemukan sekitar 4,9% token mengalami degenerasi yang signifikan. Degenerasi paling parah terjadi pada bahasa Jepang: 29,7% token bahasa Jepang mengalami degenerasi yang mencolok, jauh melebihi bahasa Korea 3,3%, Rusia 3,7%, Tiongkok 3,9%, dan Inggris 3,5%. Di antara yang paling terdegradasi juga terdapat kata-kata spam SEO dari internet seperti “传奇私服” dan “无痛人流”, yang mekanismenya sama persis dengan “嘉祺”.

Degenerasi parah pada bahasa Jepang juga mengungkap sebuah misteri lama. Sebelumnya, model kadang-kadang secara tidak sengaja memasukkan karakter Rusia atau Korea dalam dialog bahasa Jepang, tanpa pernah menemukan penyebabnya. Analisis kali ini menunjukkan bahwa setelah parameter token bahasa Jepang bergeser, token tersebut menjadi bingung dengan token dari bahasa lain dalam ruang vektor, yang menyebabkan token bahasa Jepang salah aktif (campur bahasa), serta mendorong token Tiongkok frekuensi rendah yang berdekatan keluar dari rentang probabilitas normal (lupa token).

Solusi perbaikan adalah dengan membuat data sintetis yang mencakup seluruh daftar token, sehingga model dilatih dengan tugas pengulangan sederhana sampai setiap token dikuasai. Hasilnya langsung terlihat: proporsi jawaban bahasa Jepang yang tercampur karakter Rusia turun dari 47% menjadi 1%, dan stabilitas output parameter seluruh daftar token (kemiripan kosinus) meningkat dari nilai terendah 0,329 menjadi di atas 0,97 untuk semua token.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan