DeepMindの研究者、DeepSeek V4の遅延について推測:訓練データが倍増し33兆に達し、深刻な不安定性を引き起こす

robot
概要作成中

ドンチャビーティングによる監視によると、DeepSeek V4の技術報告書は、V4-FlashとV4-Proがそれぞれ32兆と33兆のトークンで事前学習されており、V3で使用された約15兆のトークンの2倍になっていることを明らかにしています。報告書は、トレーニングプロセスで「重大な不安定性の課題」に直面したことを認めており、損失の急増(突然のトレーニング損失の増加)がMoE層の外れ値に起因し、ルーティングメカニズム自体がこれらの外れ値を悪化させ、単純なロールバックが効果的でないことを示しています。DeepSeekは、実際のトレーニングで適用された2つの解決策を特定しています:ルーティングインデックスの計算をバックボーンネットワークの更新から切り離し、損失のスパイクが検出されたときのみ自動的にトリガーされる予測ルーティング(追加のオーバーヘッド約20%)と、外れ値を直接抑制するためにアクティベーション値を固定範囲にクランプするSwiGLUクランプです。報告書は、両方の方法が効果的であると述べていますが、「根本的な原理はまだ完全には理解されていない」と認めています。Google DeepMindの研究者スーザン・チャン(Meta AIやOpenAIで以前働いていた)は、トレーニングデータの倍増による不安定性が「遅れの原因である」とコメントし、これら二つの解決策を「応急処置」と表現しつつ、DeepSeekの技術的透明性を肯定しました。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン