2026年3月16日、Kimiチームは「Attention Residuals」という論文をarXivに投稿し、その後事態は急速に拡大した。マスクがリツイートし、Karpathyは「我々はまだ『Attention is All You Need』のタイトルを本気で受け止めていない」と評し、OpenAIの共同創設者Jerry Tworekは「deep learning 2.0」と四文字で返答した。中国チームによる構造に関する論文がシリコンバレーでこれほどの議論を巻き起こすのは、DeepSeek-V3以来のことかもしれない。
しかし、盛り上がりはあるものの、多くの議論は「Kimiが新しいものを作った、偉い人たちが興奮している」レベルにとどまっている。見過ごされているのは、同じ日にByteDanceのSeedチームと華中科技大学が共同で発表したもう一つの論文、Mixture-of-Depths Attention(MoDA)である。これは全く同じ問題を異なるアプローチで解決しようとしている。同じ週内に南京大学のDilxat MuhtarやMPIのShiwei Liuらによる三番目の論文、「When Does Sparsity Mitigate the Curse of Depth in LLMs」が理論的に最も正確な病理レポートを提供した。
問題は注意力のシーケンス次元ではない。過去数年で注意力は多頭注意からグループ化クエリ、DeepSeekのMLA、さまざまなスパース変種へと進化してきた。それぞれの世代はトークン間の相互作用を最適化してきたが、実は層と層の情報伝達方式は一貫して同じ答えを持っている。残差接続、h = h + f(h)、これは学習パラメータを持たない単純な加算操作だ。
副作用は何か?2025年初、西湖大学、Emory大学、MPIのShiwei Liuらは「The Curse of Depth」を発表し、今年3月には南京大学のMuhtarらが「When Does Sparsity Mitigate the Curse of Depth in LLMs」を公開し、定量的診断を行った。現在の主流大規模モデルの構造では、深層の変換は次第に恒等写像に近づき、入力と出力がほぼ同じになる。つまり、その層は何もしていないのと同じだ。
Karpathyは、「我々はまだ『Attention is All You Need』の文字通りの意味を真剣に受け止めていない」と言った。彼の言うことは正しいかもしれない。ただし、それは「注意力だけで十分だ」という意味ではなく、「注意力はまだ使い尽くされていない」ということだ。シーケンス次元ではすでに多くの進化を遂げてきたが、深さ次元ではこれから始まったばかりだ。
マスク氏がKimiの論文をリツイートし、シリコンバレーで大きな議論を呼び起こしている。Attentionの次の戦場は何か?
2026年3月16日、Kimiチームは「Attention Residuals」という論文をarXivに投稿し、その後事態は急速に拡大した。マスクがリツイートし、Karpathyは「我々はまだ『Attention is All You Need』のタイトルを本気で受け止めていない」と評し、OpenAIの共同創設者Jerry Tworekは「deep learning 2.0」と四文字で返答した。中国チームによる構造に関する論文がシリコンバレーでこれほどの議論を巻き起こすのは、DeepSeek-V3以来のことかもしれない。
しかし、盛り上がりはあるものの、多くの議論は「Kimiが新しいものを作った、偉い人たちが興奮している」レベルにとどまっている。見過ごされているのは、同じ日にByteDanceのSeedチームと華中科技大学が共同で発表したもう一つの論文、Mixture-of-Depths Attention(MoDA)である。これは全く同じ問題を異なるアプローチで解決しようとしている。同じ週内に南京大学のDilxat MuhtarやMPIのShiwei Liuらによる三番目の論文、「When Does Sparsity Mitigate the Curse of Depth in LLMs」が理論的に最も正確な病理レポートを提供した。
これら三つの論文は密接に関連し、同じターゲットを狙っている。これは偶然ではない。長年見過ごされてきた構造的な問題が、ついに解決を迫られる臨界点に達したのだ。
問題は注意力のシーケンス次元ではない。過去数年で注意力は多頭注意からグループ化クエリ、DeepSeekのMLA、さまざまなスパース変種へと進化してきた。それぞれの世代はトークン間の相互作用を最適化してきたが、実は層と層の情報伝達方式は一貫して同じ答えを持っている。残差接続、h = h + f(h)、これは学習パラメータを持たない単純な加算操作だ。
すべての層の出力は等価に合計される。選択も忘却も学習もない。各層の貢献は平等に残差流に積み重ねられ、重要な特徴かノイズかに関わらず、すべて同じ扱いだ。
残差接続は深層学習史上最も成功した「暫定的解決策」だ。
最も成功した暫定策
残差接続は2015年、何恺明がResNetで提案したアイデアだ。非常に単純で、ネットワークが20層を超えると訓練が困難になり、勾配消失で深層のパラメータがほとんど更新されなくなる。そこで各層に「高速道路」を追加し、入力を直接出力にスキップさせる。たとえその層が何も学習しなくても、情報と勾配はこのショートカットを通じて伝わる。効果は即効で、ResNetは20層超から100層超へとネットワークを拡大した。2年後にTransformerが登場し、残差接続はそのまま受け継がれた。それ以来、この設計はほとんど変わっていない。
試みはあった。ReZero、FixUp、Highway Networkなどの変種も残差の重みを学習可能にしたが、主流の大規模モデルには採用されなかった。理由は、残差接続があまりにも便利だからだ。シンプルで安定しており、計算コストもほとんど増えない。当時のモデル規模では副作用は顕在化しなかった。
44%の層が空転
副作用は何か?2025年初、西湖大学、Emory大学、MPIのShiwei Liuらは「The Curse of Depth」を発表し、今年3月には南京大学のMuhtarらが「When Does Sparsity Mitigate the Curse of Depth in LLMs」を公開し、定量的診断を行った。現在の主流大規模モデルの構造では、深層の変換は次第に恒等写像に近づき、入力と出力がほぼ同じになる。つまり、その層は何もしていないのと同じだ。
数字は非常に厳しい。研究者は「有用性スコア」を用いて、各層が意味のある変換を行っているかを測定している。12層のモデルはすべての層が働いている。16層では3層が無駄、24層では9層が無駄、32層では14層が無駄で、44%の層はほとんど何も学習していない。パラメータは9億から23億に増加し、コストは156%増だが、実効層は12から18にしか増えない。
定量的診断——有効層数の規模増加に伴う効率の逓減
原因は残差接続の動作原理に直接関係している。各層の出力は残差接続を通じて「主幹路」に加算される。層数が増えると、主幹路に蓄積される信号は次第に大きくなる(これを「背景音量」の上昇と理解できる)が、新たに生成される信号の振幅は有限だ。深層になるほど、新信号は背景ノイズに埋もれ、入力と出力はほぼ同じになり、その層は実質的に無意味となる。
残差接続は「勾配を伝える」問題を解決したが、「深層に意味を持たせる」問題を生み出した。
大規模モデル時代において、このコストは非常に高い。一層あたり数十億の浮動小数点演算が必要だ。128層のモデルで44%の層が空転していると、約60層分の計算資源が無駄になる。コミュニティは数年にわたる推論効率改善、量子化、蒸留、剪定、スパース注意、KVキャッシュ圧縮などを行ってきたが、これらはすべて「有用な計算」の最適化に向けられている。
最大の効率のブラックホールは、二乗の計算複雑度ではなく、2015年から変わらない加算操作にある。
注意力に深さ次元を追加
ByteDanceのSeedチームは異なるアプローチを選んだ。残差接続には手を付けず、注意力メカニズム自体に第二の次元を加えた。
標準のTransformerの注意力はシーケンス次元だけを操作し、各トークンが同じ層内の他のトークンのKVを見る仕組みだ。MoDAの改良は直感的で、過去層のKVも候補集に含める。L層の注意計算時に、そのトークンは同層の他のトークンだけでなく、第1層からL-1層までのKVも直接参照できる。シーケンス次元と深さ次元は同じSoftmaxの下で結合正規化される。
理解は容易だが、速度を落とさずに実現するのは難しい。
MoDAの二次元注意力——シーケンス次元と深さ次元を同じSoftmax下で結合正規化
すべての過去層のKVを詰め込むと計算量が爆発する。32層のモデルでは、最終層は前の31層のKVすべてを見る必要があり、シーケル長は32倍に増加する。MoDAのコア技術は「グループリシェイプ」戦略で、過去層のKVの一部だけを選び、グループごとに並べ替えて連続したメモリに配置し、GPUの行列演算を効率化する。
具体的には、「深度フロー」メカニズムを導入。すべての層のKVを見るのではなく、学習可能なルーティングによって最も関連性の高い層を選択する。これはMixture-of-Expertsの考え方に似ており、すべてのエキスパートを活性化するのではなく、必要なエキスパートだけを動的に選択する。違いは、「エキスパート」が異なる深さの過去層である点だ。
64Kのシーケンス長で、MoDAの演算効率はFlashAttention-2の97.3%に達した。深度注意力を導入しても、速度はわずかに3%遅くなる程度だ。
グループリシェイプ戦略——散らばる過去層KVを連続メモリに移動
1.5Bパラメータのモデル(OLMo2の訓練レシピに基づく)で、MoDAは10の下流タスクの平均性能を2.11%向上させ、追加計算コストはわずか3.7%。最初は小さな改善に見えるが、これはアーキテクチャの改良であり、より多くのデータや長い訓練時間によるものではない。さらに、モデル規模が大きくなるほど効果は増大し、深さの退化がより深刻な問題となるほど、MoDAの修復効果は顕著になる。
MoDAとPost-Normの相互作用
興味深いのは、MoDAとPost-Normの関係だ。主流の大規模モデルはほぼすべてPre-Norm(正規化を先に行い、その後に注意力)を採用している。理論上はPost-Norm(注意力後に正規化)の方が優れているが、訓練が不安定になるためだ。MoDAの深度KVメカニズムは、Post-Normに追加の勾配チャネルを提供し、もともとの不安定性を克服できる。
MoDA+Post-Normの組み合わせは、過去の訓練安定性のための妥協(Pre-Norm使用)を見直す可能性を示唆している。
Pre-NormとPost-Normの深度KV導入後の検証損失比較
新路線を開拓せず、既存の道を改良
MoDAは残差接続には手を付けず、別の道を選んだ。同じ日にKimiチームが発表したAttention Residuals(AttnRes)は、より直接的なアプローチを取る。残差接続そのものに手を加える。
標準の残差接続は、すべての層の出力を等価に合計し、主幹路に積み重ねるだけだ。選択も忘却もない。AttnResはこれを固定の加算から、注意力操作に置き換える。各層は自身の状態をクエリとし、前の層の出力を候補とし、注意力を用いてどの特徴が有用かを動的に決定する。
残差接続は固定式から動的ルーティングへと進化した。
AttnResの核心——注意力を用いた動的ルーティング
コストは各層で深度注意力を計算する必要があり、負担は大きい。Kimiチームはブロック戦略(Block AttnRes)を採用し、層をいくつかのブロックに分割、ブロック内で完全な深度注意を行い、ブロック間はブロックレベルの集約表現だけを関心対象とする。
AttnResはKimi Linear(総パラメータ480億、活性化パラメータ30億)に組み込まれ、1.4兆トークンの事前学習で効果が確認されている。詳細は既に広く報道されているため省略するが、MoDAとの比較が重要だ。
AttnResの訓練曲線とアブレーション
二つのアプローチの根本的な原因は一致している。すなわち、深層の浅層情報が残差更新によって繰り返し希釈されてしまうことだ。ただし、アプローチの違いは、MoDAは残差接続に手を付けず、深度次元を追加して浅層の情報を直接取り出せるようにしたのに対し、AttnResは残差接続を直接操作し、等価加算を注意力加重に置き換えた点だ。
両者は同じ問題を異なる角度から解決している。注意力の深さの問題は、すでに研究コミュニティの共通認識となっている。違いは、どの方向からアプローチしたかだけだ。
AttnResの異なるモデル規模での効果の一貫性
忘れられた足場
最初の疑問に戻る。なぜ深層空転の問題が2026年まで真剣に議論されなかったのか。
それは、残差接続があまりにも便利だったからだ。梯子の役割を果たし、当時最も緊急だった勾配消失問題を解決した。コストも制御可能だった(深層退化は小規模モデルでは顕著でなかった)。代替案は未成熟だった(ReZeroやHighway Networkは大規模検証を経ていない)。誰も動かす動機がなかった。これは意図的に残された設計選択ではなく、一時的な暫定策だったのだ。最初に組んだ足場を解体せずに放置し、長い年月を経て、それが「耐荷壁」と誤認されてしまった。
残差接続の信号希釈効果——層が深くなるほど新信号は届きにくくなる
しかし、実際にこの問題を見つけにくくしたのは、残差接続そのものではなく、注意力メカニズムが長年にわたり一つの次元だけで動作してきたことだ。過去8年間、注意力の進化——多頭、多分割クエリ、スパース、線形——はすべてシーケンス次元上の工夫だった。トークン間の相互作用は何度も最適化されてきたが、層と層の情報伝達は誰も問題にしてこなかった。深さ次元は盲点だった。
MoDAとAttnResは、異なるアプローチでこの盲点を開いた。MoDAは注意力に第二の次元を追加し、シーケンスと深さの両方で動作できるようにした。AttnResは層間の情報伝達を注意力操作に変えた。両者の路線は異なるが、共通の結論を指している。すなわち、注意力は水平方向だけでなく、垂直方向も見るべきだ。
この結論の拡張は、両論文以上に大きい。Transformerには、単一次元だけで動作する固定メカニズムが多く存在する。各層は順次実行され、スキップできない。注意ヘッドは独立して計算し、単純に結合される。各トークンは、難易度に関わらず同じ計算パスをたどる。これらの設計は、モデルを訓練し収束させるためのエンジニアリング上の妥協だった。
過去10年の深層学習の進化は、最高レベルで抽象化すれば、構造的決定の多くを人間の設計からモデル自身に委ねることだ。手作りの畳み込み核は、学習可能な注意力に置き換えられた。固定位置符号は、学習可能な回転符号に代替された。固定のエキスパート割り当ては、学習可能なルーティングに変わった。今や、深さ次元の情報流動も、注意力自身が決める時代になりつつある。
Karpathyは、「我々はまだ『Attention is All You Need』の文字通りの意味を真剣に受け止めていない」と言った。彼の言うことは正しいかもしれない。ただし、それは「注意力だけで十分だ」という意味ではなく、「注意力はまだ使い尽くされていない」ということだ。シーケンス次元ではすでに多くの進化を遂げてきたが、深さ次元ではこれから始まったばかりだ。
深さは注意力の次なる戦場だ。
本文出典:Tencent Tech
リスク提示および免責条項
市場にはリスクが伴うため、投資は慎重に行うべきです。本記事は個人投資の助言を意図したものではなく、特定の投資目的や財務状況、ニーズを考慮したものではありません。読者は本記事の意見、見解、結論が自身の状況に適合するかどうかを判断し、投資の責任は自己負担です。