据动察 Beating 监测,Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。 チルドレンズ・リサーチのBeating監視によると、DeepSeek V4、Kimi K2.5、GLM-5などのトップモデルで採用されている最適化手法Muonには隠れた欠陥がある:それは訓練の初期にMLP層の4分の1を超える神経細胞が永久的に死ぬことを引き起こすということだ。 团队据此设计了替代优化器 Aurora 并开源。 チームはこれに基づき代替の最適化手法Auroraを設計し、オープンソース化した。 一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。 11億パラメータのモデルは約1000億トークンだけで、HellaSwagやWinograndeなどの言語理解ベンチマークで、36兆トークンを使って訓練されたQwen3-1.7Bに肉薄した。 问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。 問題はMuonがMLPの重み行列を処理する際の数学的特性に起因している。 训练初期,一部分神经元碰巧收到了较弱的梯度信号。 訓練の初期、一部の神経細胞は偶然に弱い勾配信号を受け取る。 AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。 AdamWなどの従来の最適化手法は逐次パラメータ正規化を行い、こうした差異を自然に平坦化するが、Muonの直交化ステップは弱い信号をそのまま伝え続ける。 弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。 弱い神経細胞は弱い更新を受け続け、次第に沈黙し、「強者はますます強くなる」死のループを形成する。 到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。 訓練500ステップ目には、すでに4分の1を超える神経細胞が実質的に死に、パラメータ容量が無駄になっている。 此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。 以前の改良版NorMuonは、各行の更新幅を強制的に平坦化することでこれを緩和したが、その代償として更新行列の直交性を破壊してしまった(直交化は各ステップの更新をできるだけ効率的にするMuonの核心的な利点であり)、最適化の精度を失った。 Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。 Auroraは「更新の均一性」と「直交性」を共同制約として設定し、交互に反復させることで両者を同時に満たす:各神経細胞に公平な学習機会を与えつつ、更新の精度も犠牲にしない。 未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。 パラメータ調整を行っていないAuroraは、Muonより計算コストがわずか6%増加するだけで、直接置き換え可能だ。 在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。 modded-nanoGPTの最適化スコアにおいて、Auroraは3175ステップで現行の最高記録を更新した。 Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。 Auroraの優位性はMLPの幅が広がるほど拡大し、拡張係数が高いほど改善効果も顕著になる。 代码和 1.1B 预训练模型均已开源。 コードと11億パラメータの事前訓練モデルはすでにオープンソース化されている。
Muonがこっそり25%のニューロンを「飢え死に」させる:Aurora修復後、データ効率が百倍に
据动察 Beating 监测,Tilde Research 发现,被 DeepSeek V4、Kimi K2.5、GLM-5 等头部模型采用的优化器 Muon 有一个隐藏缺陷:它会在训练早期让 MLP 层超过四分之一的神经元永久死亡。
チルドレンズ・リサーチのBeating監視によると、DeepSeek V4、Kimi K2.5、GLM-5などのトップモデルで採用されている最適化手法Muonには隠れた欠陥がある:それは訓練の初期にMLP層の4分の1を超える神経細胞が永久的に死ぬことを引き起こすということだ。
团队据此设计了替代优化器 Aurora 并开源。
チームはこれに基づき代替の最適化手法Auroraを設計し、オープンソース化した。
一个 1.1B 模型仅用约 100B token,就在 HellaSwag、Winogrande 等语言理解基准上逼平了用 36T token 训练的 Qwen3-1.7B。
11億パラメータのモデルは約1000億トークンだけで、HellaSwagやWinograndeなどの言語理解ベンチマークで、36兆トークンを使って訓練されたQwen3-1.7Bに肉薄した。
问题出在 Muon 处理 MLP 权重矩阵时的一个数学特性上。
問題はMuonがMLPの重み行列を処理する際の数学的特性に起因している。
训练初期,一部分神经元碰巧收到了较弱的梯度信号。
訓練の初期、一部の神経細胞は偶然に弱い勾配信号を受け取る。
AdamW 等传统优化器会逐参数归一化,自然拉平这种差异;但 Muon 的正交化步骤会把弱信号原封不动地传下去。
AdamWなどの従来の最適化手法は逐次パラメータ正規化を行い、こうした差異を自然に平坦化するが、Muonの直交化ステップは弱い信号をそのまま伝え続ける。
弱的神经元持续得到弱更新,越来越沉默,形成「强者恒强」的死循环。
弱い神経細胞は弱い更新を受け続け、次第に沈黙し、「強者はますます強くなる」死のループを形成する。
到训练第 500 步,已有超过四分之一的神经元实质性死亡,白白浪费了参数容量。
訓練500ステップ目には、すでに4分の1を超える神経細胞が実質的に死に、パラメータ容量が無駄になっている。
此前的改进版 NorMuon 通过强制拉平每行更新幅度来缓解,但代价是破坏了更新矩阵的正交性(正交化让每步更新尽可能高效,是 Muon 的核心优势),损失了优化精度。
以前の改良版NorMuonは、各行の更新幅を強制的に平坦化することでこれを緩和したが、その代償として更新行列の直交性を破壊してしまった(直交化は各ステップの更新をできるだけ効率的にするMuonの核心的な利点であり)、最適化の精度を失った。
Aurora 把「更新均匀」和「正交性」设为联合约束,用交替迭代同时满足两者:既让每个神经元都得到公平的学习机会,又不牺牲更新精度。
Auroraは「更新の均一性」と「直交性」を共同制約として設定し、交互に反復させることで両者を同時に満たす:各神経細胞に公平な学習機会を与えつつ、更新の精度も犠牲にしない。
未调参的 Aurora 仅比 Muon 多 6% 计算开销,可直接替换。
パラメータ調整を行っていないAuroraは、Muonより計算コストがわずか6%増加するだけで、直接置き換え可能だ。
在 modded-nanoGPT 优化跑分中,Aurora 以 3175 步刷新了当前最优纪录。
modded-nanoGPTの最適化スコアにおいて、Auroraは3175ステップで現行の最高記録を更新した。
Aurora 的优势还会随 MLP 宽度增大而放大,扩展系数越高,改善越明显。
Auroraの優位性はMLPの幅が広がるほど拡大し、拡張係数が高いほど改善効果も顕著になる。
代码和 1.1B 预训练模型均已开源。
コードと11億パラメータの事前訓練モデルはすでにオープンソース化されている。