Ringkasan: Model M2 gagal menghasilkan 'Ma Jiaqi' karena tokenizer menggabungkan 'Jiaqi' menjadi satu token selama pelatihan; kelangkaan data pasca-pelatihan menyebabkan pergeseran token, terutama dalam bahasa Jepang. Pelatihan ulang sintetis memperbaiki pergeseran dan mengembalikan stabilitas.Abstrak: Artikel ini merangkum penyelidikan mengapa model besar MiniMax M2 gagal menghasilkan token 'Ma Jiaqi'. Penyebab utamanya adalah penggabungan token oleh tokenizer selama pelatihan, ditambah oleh kelangkaan data pasca-pelatihan yang menyebabkan pergeseran token dan pencampuran bahasa, terutama dalam bahasa Jepang. Pemindaian menyeluruh terhadap sekitar 200.000 token menunjukkan degradasi yang luas, dengan bahasa Jepang paling terdampak. Solusinya adalah membuat dataset pelatihan sintetis dengan kosakata lengkap sehingga setiap token dapat dilatih. Setelah pelatihan ulang, kontaminasi antar bahasa menurun tajam (karakter Rusia dalam respons Jepang turun dari 47% menjadi 1%), dan stabilitas ruang vektor kosakata (kemiripan kosinus) meningkat dari 0,329 menjadi di atas 0,97.

AirdropBlackHole

2026-05-09 09:11:17

Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh Dongcha Beating, MiniMax merilis sebuah blog teknis yang mengungkap penyelidikan penyebab utama ketidakmampuan model besar seri M2 untuk mengeluarkan nama ‘Ma Jiaqi’. Penyelidikan dimulai dari sebuah kasus tertentu dan akhirnya mengungkap masalah degradasi sistemik yang mempengaruhi seluruh kosakata. Penyebab utama diidentifikasi sebagai tokenizer (komponen yang memotong teks menjadi unit untuk pemrosesan model) yang menggabungkan ‘Jiaqi’ menjadi token tersendiri selama pelatihan. Pada fase pra-pelatihan, model menghadapi sejumlah besar teks dari internet dan mempelajari token ini; namun, dalam data dialog pasca-pelatihan, terdapat kurang dari 5 sampel yang mengandung ‘Jiaqi’. Selama pasca-pelatihan, token dengan frekuensi tinggi seperti penanda tool_call dan simbol kode terus memperbarui ruang vektor di sekitarnya, mendorong token dengan frekuensi rendah seperti ‘Jiaqi’ ke arah yang salah. Model masih ’ mengenali’ Ma Jiaqi dan dapat merespons dengan informasi terkait secara akurat; ia hanya kehilangan kemampuan untuk mengeluarkan token ini. Tim kemudian melakukan pemindaian menyeluruh terhadap sekitar 200.000 token dalam seluruh kosakata dan menemukan bahwa sekitar 4,9% token mengalami degradasi yang signifikan. Degradasi paling parah diamati pada bahasa Jepang: 29,7% token Jepang menunjukkan degradasi yang signifikan, jauh melebihi Korea (3,3%), Rusia (3,7%), Cina (3,9%), dan Inggris (3,5%). Token lain yang mengalami degradasi signifikan termasuk istilah sampah SEO internet seperti ‘server pribadi legendaris’ dan ‘keguguran tanpa rasa sakit’, dengan mekanisme yang identik dengan ‘Jiaqi’. Degradasi parah pada bahasa Jepang ini juga menyelesaikan sebuah misteri lama. Sebelumnya, model kadang-kadang mencampurkan karakter Rusia atau Korea dalam dialog Jepang, tetapi penyebabnya tidak diketahui. Analisis ini menunjukkan bahwa setelah drift parameter token Jepang, mereka menjadi bingung dengan token dari bahasa lain dalam ruang vektor, yang menyebabkan aktivasi yang salah dari token Jepang (campur bahasa) dan mendorong token Cina berfrekuensi rendah di sekitarnya keluar dari rentang probabilitas normal (lupa token). Solusinya adalah membangun dataset sintetis yang mencakup seluruh kosakata, memungkinkan model berlatih setiap token melalui tugas pengulangan sederhana. Hasilnya langsung terlihat: proporsi karakter Rusia yang tercampur dalam respons Jepang turun dari 47% menjadi 1%, dan stabilitas parameter output untuk seluruh kosakata (kemiripan kosinus) meningkat dari nilai terendah 0,329 menjadi di atas 0,97.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
945.1K Popularitas
#
BTCBackAbove80K
59.43M Popularitas
#
IsraelStrikesIranBTCPlunges
45.32K Popularitas
#
JapanTokenizesGovernmentBonds
1.89M Popularitas
#
#DailyPolymarketHotspot
862.69K Popularitas

Sematkan

peta situs

Mengapa Model Besar Gagal Menghasilkan 'Ma Jiaqi': Analisis Token MiniMax Mengungkapkan Hampir 5% Token Lupa Setelah Pelatihan

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan