Muon diam-diam "kelaparan" 25% neuron: Setelah Aurora diperbaiki, efisiensi data meningkat seratus kali lipat

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating Monitoring, Tilde Research menemukan bahwa optimizer Muon yang digunakan oleh model-model terkemuka seperti DeepSeek V4, Kimi K2.5, GLM-5 memiliki cacat tersembunyi: ia menyebabkan lebih dari seperempat neuron lapisan MLP mati permanen pada awal pelatihan. Tim ini merancang optimizer pengganti bernama Aurora dan merilisnya secara open source. Sebuah model 1,1B hanya dengan sekitar 100B token, mampu menyamai performa Qwen3-1.7B yang dilatih dengan 36T token pada benchmark pemahaman bahasa seperti HellaSwag dan Winogrande.
Masalahnya terletak pada sifat matematis Muon saat memproses matriks bobot MLP. Pada awal pelatihan, sebagian neuron secara kebetulan menerima sinyal gradien yang lemah. Optimizer tradisional seperti AdamW akan menormalkan setiap parameter secara bertahap, sehingga secara alami meratakan perbedaan ini; tetapi langkah ortogonalisasi Muon akan meneruskan sinyal lemah tersebut tanpa perubahan. Neuron yang lemah terus mendapatkan pembaruan yang lemah, menjadi semakin tidak aktif, membentuk siklus kematian “yang kuat semakin kuat”. Pada langkah ke-500 pelatihan, lebih dari seperempat neuron secara substansial mati, membuang kapasitas parameter yang sia-sia.
Versi perbaikan sebelumnya, NorMuon, mencoba mengatasi ini dengan memaksa meratakan amplitudo pembaruan setiap baris, tetapi dengan mengorbankan ortogonalitas matriks pembaruan (yang membuat setiap langkah pembaruan seefisien mungkin dan merupakan keunggulan utama Muon), sehingga mengurangi presisi optimisasi. Aurora menggabungkan “pembaruan merata” dan “ortogonalitas” sebagai kendala bersama, menggunakan iterasi bergantian untuk memenuhi keduanya secara bersamaan: memastikan setiap neuron mendapatkan kesempatan belajar yang adil tanpa mengorbankan presisi pembaruan.
Aurora yang tanpa tuning parameter hanya membutuhkan biaya komputasi 6% lebih banyak dari Muon, sehingga dapat langsung menggantikan. Dalam pengujian skor optimisasi modded-nanoGPT, Aurora mencapai rekor baru dalam 3175 langkah. Keunggulan Aurora juga akan semakin besar seiring dengan peningkatan lebar MLP; semakin tinggi faktor skalanya, semakin besar perbaikannya.
Kode dan model pra-pelatihan 1,1B sudah dirilis secara open source.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan