据动察 Beating 监测，Tilde Research 发现，被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷：它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。
チルドレンズ・リサーチのBeating監視によると、DeepSeek V4、Kimi K2.5、GLM-5などのトップモデルで採用されている最適化手法Muonには隠れた欠陥がある：それは訓練の初期にMLP層の4分の1を超える神経細胞が永久的に死ぬことを引き起こすということだ。

团队据此设计了替代优化器 Aurora 并开源。
チームはこれに基づき代替の最適化手法Auroraを設計し、オープンソース化した。

一个 1.1B 模型仅用约 100B token，就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。
11億パラメータのモデルは約1000億トークンだけで、HellaSwagやWinograndeなどの言語理解ベンチマークで、36兆トークンを使って訓練されたQwen3-1.7Bに肉薄した。

问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。
問題はMuonがMLPの重み行列を処理する際の数学的特性に起因している。

训练初期，一部分神经元碰巧收到了较弱的梯度信号。
訓練の初期、一部の神経細胞は偶然に弱い勾配信号を受け取る。

AdamW 等传统优化器会逐参数归一化，自然拉平这种差异；但 Muon 的正交化步骤会把弱信号原封不动地传下去。
AdamWなどの従来の最適化手法は逐次パラメータ正規化を行い、こうした差異を自然に平坦化するが、Muonの直交化ステップは弱い信号をそのまま伝え続ける。

弱的神经元持续得到弱更新，越来越沉默，形成「强者恒强」的死循环。
弱い神経細胞は弱い更新を受け続け、次第に沈黙し、「強者はますます強くなる」死のループを形成する。

到训练第 500 步，已有超过四分之一的神经元实质性死亡，白白浪费了参数容量。
訓練500ステップ目には、すでに4分の1を超える神経細胞が実質的に死に、パラメータ容量が無駄になっている。

此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解，但代价是破坏了更新矩阵的正交性（正交化让每步更新尽可能高效，是 Muon 的核心优势），损失了优化精度。
以前の改良版NorMuonは、各行の更新幅を強制的に平坦化することでこれを緩和したが、その代償として更新行列の直交性を破壊してしまった（直交化は各ステップの更新をできるだけ効率的にするMuonの核心的な利点であり）、最適化の精度を失った。

Aurora 把「更新均匀」和「正交性」设为联合约束，用交替迭代同时满足两者：既让每个神经元都得到公平的学习机会，又不牺牲更新精度。
Auroraは「更新の均一性」と「直交性」を共同制約として設定し、交互に反復させることで両者を同時に満たす：各神経細胞に公平な学習機会を与えつつ、更新の精度も犠牲にしない。

未调参的 Aurora 仅比 Muon 多 6% 计算开销，可直接替换。
パラメータ調整を行っていないAuroraは、Muonより計算コストがわずか6％増加するだけで、直接置き換え可能だ。

在 modded-nanoGPT 优化跑分中，Aurora 以 3175 步刷新了当前最优纪录。
modded-nanoGPTの最適化スコアにおいて、Auroraは3175ステップで現行の最高記録を更新した。

Aurora 的优势还会随 MLP 宽度增大而放大，扩展系数越高，改善越明显。
Auroraの優位性はMLPの幅が広がるほど拡大し、拡張係数が高いほど改善効果も顕著になる。

代码和 1.1B 预训练模型均已开源。
コードと11億パラメータの事前訓練モデルはすでにオープンソース化されている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareMayTradingShare
1.06M 人気度
#
BTCBackAbove80K
59.45M 人気度
#
IsraelStrikesIranBTCPlunges
45.63K 人気度
#
JapanTokenizesGovernmentBonds
1.91M 人気度
#
#DailyPolymarketHotspot
873.07K 人気度

ピン

サイトマップ

Muonがこっそり25％のニューロンを「飢え死に」させる：Aurora修復後、データ効率が百倍に

人気の話題

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

ピン