MiniMax:Analisis penyebab utama mengapa model besar tidak dapat menghasilkan nama orang 「Ma Jiaqi」

robot
Pembuatan abstrak sedang berlangsung

Berita dari Jièjiè Wǎng, MiniMax merilis blog teknologi yang mengungkap proses penyelidikan penyebab utama mengapa model besar seri m2 mereka tidak dapat menghasilkan nama orang “马嘉祺”. Penyelidikan dimulai dari satu contoh kasus, akhirnya mengungkap masalah degenerasi sistematis yang mempengaruhi seluruh daftar token. Penyebab utamanya adalah tokenizer yang saat pelatihan menggabungkan “嘉祺” menjadi satu token independen. Pada tahap pra-pelatihan, model melihat banyak teks dari internet, mempelajari token ini, tetapi dalam data dialog setelah pelatihan, sampel yang mengandung “嘉祺” kurang dari 5 buah. Selama proses pelatihan lanjutan, token frekuensi tinggi seperti penandaan tool_call, simbol kode, dan lainnya terus memperbarui ruang vektor di sekitar mereka, sehingga token frekuensi rendah seperti “嘉祺” terdorong ke arah yang salah. Model masih " mengenal" 马嘉祺 dan dapat menjawab informasi terkait dengan akurat, yang hilang hanyalah kemampuan untuk menghasilkan token ini. Tim kemudian melakukan pemindaian lengkap terhadap sekitar 200.000 token dalam daftar token lengkap, menemukan sekitar 4,9% token mengalami degenerasi yang signifikan. Degenerasi paling parah terjadi pada bahasa Jepang: 29,7% token bahasa Jepang mengalami degenerasi yang signifikan, jauh melebihi bahasa Korea 3,3%, Rusia 3,7%, Tiongkok 3,9%, dan Inggris 3,5%.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan