動察 Beating 監測によると、Tilde Research は、DeepSeek V4、Kimi K2.5、GLM-5 などのヘッドモデルで採用されている最適化器 Muon に隠れた欠陥があることを発見しました:それは、訓練の初期段階で MLP 層の神経元の四分の一以上が永久に死滅してしまうことです。チームはこれに基づき、代替の最適化器 Aurora を設計し、オープンソース化しました。1.1B のモデルは、約 100B トークンだけを用いて、HellaSwag、Winogrande などの言語理解ベンチマークで、36T トークンで訓練された Qwen3-1.7B に肉薄しました。問題は、Muon が MLP の重み行列を処理する際の数学的特性にあります。訓練の初期段階で、一部の神経元が偶然に弱い勾配信号を受け取ることがあります。AdamW などの従来の最適化器は、逐次パラメータごとに正規化し、こうした差異を自然に平坦化しますが、Muon の直交化ステップは、弱い信号をそのまま伝え続けます。弱い神経元は弱い更新を持続し、次第に沈黙し、「強者恒強」の死循環を形成します。訓練の第 500 ステップまでに、すでに四分の一以上の神経元が実質的に死滅し、パラメータ容量が無駄になっています。以前の改良版 NorMuon は、各行の更新振幅を強制的に平坦化することでこれを緩和しましたが、その代償として更新行列の直交性を破壊し(直交化は各ステップの更新をできるだけ効率的にするための Muon の核心的な利点です)、最適化の精度を失いました。Aurora は、「更新の均一性」と「直交性」を共同制約とし、交互に反復させて両者を同時に満たす方法を採用しています:すなわち、各神経元に公平な学習機会を与えつつ、更新の精度も犠牲にしません。未調整の Aurora は、Muon より計算コストがわずか 6%増加するだけで、そのまま置き換え可能です。modded-nanoGPT の最適化スコアにおいて、Aurora は 3175 ステップで現行の最良記録を更新しました。Aurora の優位性は、MLP の幅が広がるほどに拡大し、拡張係数が高いほど改善が顕著になります。コードと 1.1B の事前訓練モデルはすでにオープンソース化されています。
Muonがこっそり25%のニューロンを「飢え死に」させる:Aurora修復後、データ効率が百倍に
動察 Beating 監測によると、Tilde Research は、DeepSeek V4、Kimi K2.5、GLM-5 などのヘッドモデルで採用されている最適化器 Muon に隠れた欠陥があることを発見しました:それは、訓練の初期段階で MLP 層の神経元の四分の一以上が永久に死滅してしまうことです。チームはこれに基づき、代替の最適化器 Aurora を設計し、オープンソース化しました。1.1B のモデルは、約 100B トークンだけを用いて、HellaSwag、Winogrande などの言語理解ベンチマークで、36T トークンで訓練された Qwen3-1.7B に肉薄しました。
問題は、Muon が MLP の重み行列を処理する際の数学的特性にあります。訓練の初期段階で、一部の神経元が偶然に弱い勾配信号を受け取ることがあります。AdamW などの従来の最適化器は、逐次パラメータごとに正規化し、こうした差異を自然に平坦化しますが、Muon の直交化ステップは、弱い信号をそのまま伝え続けます。弱い神経元は弱い更新を持続し、次第に沈黙し、「強者恒強」の死循環を形成します。訓練の第 500 ステップまでに、すでに四分の一以上の神経元が実質的に死滅し、パラメータ容量が無駄になっています。
以前の改良版 NorMuon は、各行の更新振幅を強制的に平坦化することでこれを緩和しましたが、その代償として更新行列の直交性を破壊し(直交化は各ステップの更新をできるだけ効率的にするための Muon の核心的な利点です)、最適化の精度を失いました。Aurora は、「更新の均一性」と「直交性」を共同制約とし、交互に反復させて両者を同時に満たす方法を採用しています:すなわち、各神経元に公平な学習機会を与えつつ、更新の精度も犠牲にしません。
未調整の Aurora は、Muon より計算コストがわずか 6%増加するだけで、そのまま置き換え可能です。modded-nanoGPT の最適化スコアにおいて、Aurora は 3175 ステップで現行の最良記録を更新しました。Aurora の優位性は、MLP の幅が広がるほどに拡大し、拡張係数が高いほど改善が顕著になります。
コードと 1.1B の事前訓練モデルはすでにオープンソース化されています。