MiniMax @MiniMax_AI Membalas panjang lebar tentang "Model tidak bisa menyebutkan Ma Jiaqi"


MiniMax resmi mengeluarkan pernyataan panjang menanggapi ketidakmampuan model seri M2 menyebutkan Ma Jiaqi, menyediakan proses pemeriksaan lengkap dan pemikiran teknis terkait masalah "pengakuan Jiaqi". ⬇️
MiniMax menyatakan bahwa mereka telah melakukan pemeriksaan dari berbagai dimensi, termasuk penyelarasan versi tokenizer, distribusi statistik embedding, pencarian tetangga semantik dekat, eksperimen perbandingan few-shot antara model pra-pelatihan dan pasca-pelatihan, statistik frekuensi data pasca-pelatihan, serta pemindaian urutan perubahan besar pada lm_head seluruh kosakata.
Akhirnya, penyebab yang ditemukan adalah: "Jiaqi" digabungkan menjadi token tunggal yang terpisah dalam tokenizer, tetapi token ini muncul sangat jarang dalam data pasca-pelatihan, menyebabkan model secara bertahap melupakan kemampuan untuk menghasilkan token tersebut selama pelatihan lanjutan.
Lihat Asli
post-image
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan