出典:TokenPost
オリジナルタイトル:中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개
オリジナルリンク:https://www.tokenpost.kr/news/ai/320188
中国のAI研究機関DeepSeek(が次世代のAI学習性能を大幅に向上させる新しいアーキテクチャを発表した。『mHC)Manifold-Constrained Hyper-Connections(』と名付けられたこの技術は、大規模言語モデル)LLM(や視覚認識モデルにおいて不可欠な『残差接続)residual connection(』方式を超える構造であり、学習精度はもちろんハードウェア効率も向上させたと評価されている。
DeepSeekは、残留接続を超えた次世代AIアーキテクチャ「mHC」を発表しました
出典:TokenPost オリジナルタイトル:中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 ‘mHC’ 공개 オリジナルリンク:https://www.tokenpost.kr/news/ai/320188 中国のAI研究機関DeepSeek(が次世代のAI学習性能を大幅に向上させる新しいアーキテクチャを発表した。『mHC)Manifold-Constrained Hyper-Connections(』と名付けられたこの技術は、大規模言語モデル)LLM(や視覚認識モデルにおいて不可欠な『残差接続)residual connection(』方式を超える構造であり、学習精度はもちろんハードウェア効率も向上させたと評価されている。
mHCは従来の『ハイパーコネクション)Hyper-Connections(』技術を改良した方式である。ハイパーコネクションはディープラーニングモデルの層)layer(間の情報伝達をより効率的に行う構造として注目されたが、実運用環境ではさまざまな技術的制約により広く使われてこなかった。DeepSeekはこの限界を『マニフォールド)manifold(』の概念と結びつけることで克服した。マニフォールドは数学的に多層構造を持つ空間であり、単純な円形から3次元を超える複雑な構造まで多様である。DeepSeekはmHCがこれらのマニフォールドベースの構造を活用し、モデル学習中に生成される勾配)誤差逆伝播信号(の安定性と一貫性を確保する上で重要な役割を果たすと説明した。
DeepSeekはこのアーキテクチャの性能を検証するため、それぞれ30億、90億、270億のパラメータを持つ3種類のLLMをmHC構造で学習させ、同じスペックのモデルをハイパーコネクションベースと比較実験した。その結果、mHC構造のモデルは合計8つのベンチマークで一貫してより優れた性能を示したと同社は主張している。特にメモリ要求量の面で従来の構造より効率的な学習が可能であり、訓練時に発生するハードウェアオーバーヘッドは6.27%程度にとどまったと報告された。
DeepSeekの研究者は「マニフォールドベースの位相構造と最適化アルゴリズムの関係をより深く理解することで、mHCは現在のAIモデルの限界を克服し、次世代のインフラ設計の新たな道を開くことができる」と技術的意義を強調した。
今回の発表は、最近のAI学習アーキテクチャに対する世界的な見直しの動きの中で出されたものである点に注目される。従来の残差接続方式は2015年のディープラーニング研究で導入されて以来、LLMや画像分類モデルに広く用いられてきた。この構造は最終出力層で生成される誤差信号が逆流し、全層に学習情報を伝達する方式であり、この過程で生じる情報歪みを補正してきた。
しかし、AIモデルが次第に超大型化するにつれ、この残差接続の限界が露呈し、それを改善するためのさまざまな試みが続いてきた。DeepSeekのmHCはこうした背景から登場した最新技術であり、AI産業全体の基盤となるモデル学習効率の改善に直接寄与できると分析されている。