Muonがこっそり25%のニューロンを「飢え死に」させる:Aurora修復後、データ効率が百倍に

robot
概要作成中

据动察 Beating 监测,Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。
チルドレンズ・リサーチのBeating監視によると、DeepSeek V4、Kimi K2.5、GLM-5などのトップモデルで採用されている最適化手法Muonには隠れた欠陥がある:それは訓練の初期にMLP層の4分の1を超える神経細胞が永久的に死ぬことを引き起こすということだ。

团队据此设计了替代优化器 Aurora 并开源。
チームはこれに基づき代替の最適化手法Auroraを設計し、オープンソース化した。

一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。
11億パラメータのモデルは約1000億トークンだけで、HellaSwagやWinograndeなどの言語理解ベンチマークで、36兆トークンを使って訓練されたQwen3-1.7Bに肉薄した。

问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。
問題はMuonがMLPの重み行列を処理する際の数学的特性に起因している。

训练初期,一部分神经元碰巧收到了较弱的梯度信号。
訓練の初期、一部の神経細胞は偶然に弱い勾配信号を受け取る。

AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。
AdamWなどの従来の最適化手法は逐次パラメータ正規化を行い、こうした差異を自然に平坦化するが、Muonの直交化ステップは弱い信号をそのまま伝え続ける。

弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。
弱い神経細胞は弱い更新を受け続け、次第に沈黙し、「強者はますます強くなる」死のループを形成する。

到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。
訓練500ステップ目には、すでに4分の1を超える神経細胞が実質的に死に、パラメータ容量が無駄になっている。

此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。
以前の改良版NorMuonは、各行の更新幅を強制的に平坦化することでこれを緩和したが、その代償として更新行列の直交性を破壊してしまった(直交化は各ステップの更新をできるだけ効率的にするMuonの核心的な利点であり)、最適化の精度を失った。

Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。
Auroraは「更新の均一性」と「直交性」を共同制約として設定し、交互に反復させることで両者を同時に満たす:各神経細胞に公平な学習機会を与えつつ、更新の精度も犠牲にしない。

未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。
パラメータ調整を行っていないAuroraは、Muonより計算コストがわずか6%増加するだけで、直接置き換え可能だ。

在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。
modded-nanoGPTの最適化スコアにおいて、Auroraは3175ステップで現行の最高記録を更新した。

Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。
Auroraの優位性はMLPの幅が広がるほど拡大し、拡張係数が高いほど改善効果も顕著になる。

代码和 1.1B 预训练模型均已开源。
コードと11億パラメータの事前訓練モデルはすでにオープンソース化されている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン