研究発見 Muon オプティマイザは訓練初期に一部のMLPニューロンを永久的に死に至らしめることがあり、その理由は正交化による弱い信号の保持にあります。Aurora は更新の均一性と正交性を同時に制約し、交互に反復することで両者のバランスを取り、死を防ぎつつ効率を向上させます。パラメータ調整なしで Aurora は Muon よりわずか6％の計算コスト増で置き換え可能であり、1.1Bモデルで約100Bトークンを用いて36Tの訓練を行ったQwen3-1.7Bと同等の性能に達します。コードとモデルはすでにオープンソース化されています。

BlockBeatNews

2026-05-10 04:07:30

概要作成中

動察 Beating 監測によると、Tilde Research は、DeepSeek V4、Kimi K2.5、GLM-5 などのヘッドモデルで採用されている最適化器 Muon に隠れた欠陥があることを発見しました：それは、訓練の初期段階で MLP 層の神経元の四分の一以上が永久に死滅してしまうことです。チームはこれに基づき、代替の最適化器 Aurora を設計し、オープンソース化しました。1.1B のモデルは、約 100B トークンだけを用いて、HellaSwag、Winogrande などの言語理解ベンチマークで、36T トークンで訓練された Qwen3-1.7B に肉薄しました。

問題は、Muon が MLP の重み行列を処理する際の数学的特性にあります。訓練の初期段階で、一部の神経元が偶然に弱い勾配信号を受け取ることがあります。AdamW などの従来の最適化器は、逐次パラメータごとに正規化し、こうした差異を自然に平坦化しますが、Muon の直交化ステップは、弱い信号をそのまま伝え続けます。弱い神経元は弱い更新を持続し、次第に沈黙し、「強者恒強」の死循環を形成します。訓練の第 500 ステップまでに、すでに四分の一以上の神経元が実質的に死滅し、パラメータ容量が無駄になっています。

以前の改良版 NorMuon は、各行の更新振幅を強制的に平坦化することでこれを緩和しましたが、その代償として更新行列の直交性を破壊し（直交化は各ステップの更新をできるだけ効率的にするための Muon の核心的な利点です）、最適化の精度を失いました。Aurora は、「更新の均一性」と「直交性」を共同制約とし、交互に反復させて両者を同時に満たす方法を採用しています：すなわち、各神経元に公平な学習機会を与えつつ、更新の精度も犠牲にしません。

未調整の Aurora は、Muon より計算コストがわずか 6%増加するだけで、そのまま置き換え可能です。modded-nanoGPT の最適化スコアにおいて、Aurora は 3175 ステップで現行の最良記録を更新しました。Aurora の優位性は、MLP の幅が広がるほどに拡大し、拡張係数が高いほど改善が顕著になります。

コードと 1.1B の事前訓練モデルはすでにオープンソース化されています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareMayTradingShare
1.08M 人気度
#
BTCBackAbove80K
59.46M 人気度
#
IsraelStrikesIranBTCPlunges
45.68K 人気度
#
JapanTokenizesGovernmentBonds
1.92M 人気度
#
#DailyPolymarketHotspot
872.77K 人気度

ピン

サイトマップ

Muonがこっそり25％のニューロンを「飢え死に」させる：Aurora修復後、データ効率が百倍に

人気の話題

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

ピン