Penelitian menemukan bahwa pengoptimal model kepala Muon selama pelatihan awal menyebabkan lebih dari seperempat neuron MLP mati secara permanen, karena penjajaran ortogonal yang mempertahankan sinyal lemah menyebabkan "yang kuat semakin kuat". Aurora menggabungkan batasan keseragaman pembaruan dan ortogonalitas secara paralel, melalui iterasi bergantian untuk mencapai keduanya secara bersamaan, secara signifikan meningkatkan efisiensi dan stabilitas pembelajaran. Aurora tanpa penyesuaian parameter dapat langsung menggantikan Muon; model 1.1B hanya menggunakan sekitar 100B token, dan mendekati performa Qwen3-1.7B yang dilatih dengan 36T token pada berbagai benchmark pemahaman bahasa, dan keunggulannya meningkat seiring dengan peningkatan lebar MLP. Kode dan model pra-pelatihan 1.1B telah dirilis secara terbuka.

MarsBitNews

2026-05-10 05:11:34

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating Monitoring, Tilde Research menemukan bahwa optimizer Muon yang digunakan oleh model-model terkemuka seperti DeepSeek V4, Kimi K2.5, GLM-5 memiliki cacat tersembunyi: ia menyebabkan lebih dari seperempat neuron lapisan MLP mati permanen pada awal pelatihan. Tim ini merancang optimizer pengganti bernama Aurora dan merilisnya secara open source. Sebuah model 1,1B hanya dengan sekitar 100B token, mampu menyamai performa Qwen3-1.7B yang dilatih dengan 36T token pada benchmark pemahaman bahasa seperti HellaSwag dan Winogrande.
Masalahnya terletak pada sifat matematis Muon saat memproses matriks bobot MLP. Pada awal pelatihan, sebagian neuron secara kebetulan menerima sinyal gradien yang lemah. Optimizer tradisional seperti AdamW akan menormalkan setiap parameter secara bertahap, sehingga secara alami meratakan perbedaan ini; tetapi langkah ortogonalisasi Muon akan meneruskan sinyal lemah tersebut tanpa perubahan. Neuron yang lemah terus mendapatkan pembaruan yang lemah, menjadi semakin tidak aktif, membentuk siklus kematian “yang kuat semakin kuat”. Pada langkah ke-500 pelatihan, lebih dari seperempat neuron secara substansial mati, membuang kapasitas parameter yang sia-sia.
Versi perbaikan sebelumnya, NorMuon, mencoba mengatasi ini dengan memaksa meratakan amplitudo pembaruan setiap baris, tetapi dengan mengorbankan ortogonalitas matriks pembaruan (yang membuat setiap langkah pembaruan seefisien mungkin dan merupakan keunggulan utama Muon), sehingga mengurangi presisi optimisasi. Aurora menggabungkan “pembaruan merata” dan “ortogonalitas” sebagai kendala bersama, menggunakan iterasi bergantian untuk memenuhi keduanya secara bersamaan: memastikan setiap neuron mendapatkan kesempatan belajar yang adil tanpa mengorbankan presisi pembaruan.
Aurora yang tanpa tuning parameter hanya membutuhkan biaya komputasi 6% lebih banyak dari Muon, sehingga dapat langsung menggantikan. Dalam pengujian skor optimisasi modded-nanoGPT, Aurora mencapai rekor baru dalam 3175 langkah. Keunggulan Aurora juga akan semakin besar seiring dengan peningkatan lebar MLP; semakin tinggi faktor skalanya, semakin besar perbaikannya.
Kode dan model pra-pelatihan 1,1B sudah dirilis secara open source.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.06M Popularitas
#
BTCBackAbove80K
59.45M Popularitas
#
IsraelStrikesIranBTCPlunges
45.63K Popularitas
#
JapanTokenizesGovernmentBonds
1.91M Popularitas
#
#DailyPolymarketHotspot
871.3K Popularitas

Sematkan

peta situs

Muon diam-diam "kelaparan" 25% neuron: Setelah Aurora diperbaiki, efisiensi data meningkat seratus kali lipat

Topik Trending

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Sematkan