V4後訓練の世代交代:OPDが混合RLを代替、十数個の専門家モデルを一つに蒸留

robot
概要作成中
ME News メッセージ、4月24日(UTC+8)、動察 Beatingのモニタリングによると、DeepSeek V4の後訓練方法論に重大な変化が生じた:V3.2のmixed RL段階がOn-Policy Distillation(OPD、オンライン戦略蒸留)に完全に置き換えられた。新たなプロセスは2段階に分かれる。第一段階では、数学、コード、Agent、指示追従などの分野において、V3.2パイプラインを基にそれぞれドメイン専門家モデルを訓練し、各専門家はまず微調整を行い、その後GRPOを用いて強化学習を実施する。第二段階では、複数教師OPDを用いて十数名の専門家の能力を単一の統一モデルに蒸留する:学生は自身が生成した軌道上で、各教師に対してreverse KLダイバージェンスによる全語彙logit蒸留を行い、logitsレベルのアライメントを通じて複数の専門家の重みを統一パラメータ空間に統合する。これにより従来のweight mergingやmixed RLでよく見られる能力の競合を回避する。報告書はさらにGenerative Reward Model(GRM、生成型報酬モデル)を提案している:ルールで検証することが難しいタスクに対しては、従来のスカラー報酬モデルを訓練する代わりに、rubric誘導のRLデータを用いてGRMを訓練し、actorネットワークに生成と評価の両能力を同時に担わせ、少数の多様な人手ラベリングだけで複雑なタスクに汎化できるようにする。(出典:BlockBeats)
DEEPSEEK-2.53%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め