万亿参数大模型强化学習の閾値を突破:オープンソースのprime-rlが28台のサーバーで131kのコンテキストを訓練

robot
概要作成中
ME AI メッセージによると、動態監視Beatingの監測結果に基づき、Prime Intellectは分散強化学習トレーニングフレームワークのprime-rl 0.6.0バージョンをリリースし、万億パラメータのハイブリッドエキスパートモデルMoEが超長文コンテキストのインテリジェントエージェントタスクにおける強化学習RLトレーニングのハードルを克服しました。 大規模モデルは256kの超長文を読み切ることは珍しくありませんが、強化学習トレーニングでは、モデルが自己試行錯誤による推論演習を行うために、GPUは常に131k長さの巨大な中間活性化値を保存し続ける必要があり、メモリ消費は百倍、千倍に暴騰します。 これまでは数千枚のGPUからなる巨大クラスターが必要でしたが、prime-rl 0.6.0はわずか28台のH200サーバーだけでGLM-5の131kコンテキスト強化学習トレーニングを完了し、1ステップあたりの時間を5分以内に抑えました。 複雑なコード生成などの試行錯誤タスクにおいて、少数の長尾にわたる遅延タスクが全体の進行を妨げ、GPUリソースが長時間アイドリング状態になる問題を解決するために、フレームワークは従来の同期待機メカニズムを破り、完全にデカップリングされた非同期RLアーキテクチャを採用しています。 バックグラウンドトレーナーは新しい重みを計算した後、進行中の試行錯誤タスクの終了を待たずに、モデルがテキスト生成中にリアルタイムで更新を配信します。 配信済みのタスクは旧戦略を引き続き使用して速度を確保し、新しいタスクにはKVキャッシュに塩を注入してキャッシュを強制的に再構築します。 非同期更新において、トレーニングと推論のペースが一致しないことでモデルの論理が混乱する問題に対して、フレームワークはルーティングリプレイR3技術を導入し、エキスパートの分配データを直接底層で処理し、データ変換によるシステム遅延を回避し、両端の不一致度を10分の1に抑え、非同期トレーニングの安定性を大幅に向上させています。 底層リソースの圧縮に関しては、フレームワークは精密な設計により、長文によるGPUメモリの爆発的消費の問題を根本的に解決しています。 推論側は読み取りと書き込み計算を分離したアーキテクチャを採用し、大規模モデルが大量の前文ヒントを読むことで後続のテキスト生成が停止するのを防ぎます。同時に複数のGPUでエキスパート知識を共有し、Mooncake技術を利用して複数サーバーの未使用メモリとハードディスクを共有キャッシュプールに結合しています。 超長文の並列計算においては、GLM-5の独特なDSA疎注意メカニズムに対応し、専用の並列化方案をカスタマイズし、モデルが全体を俯瞰できるようにしつつ、各層のGPU間のデータ通信コストを一度だけに抑えています。 トレーニング側はDeepGEMMと連携し、DeepSeek V3で提案されたブロックスケーリングFP8トレーニングを実現し、トレーニングと推論の両方で同じ精度と計算コアを使用し、精度偏差によるトレーニング崩壊を根本的に防いでいます。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め