V4后训练换代:OPD替代混合RL,十余个专家模型蒸馏为一

robot
Création du résumé en cours
ME News rapporte, le 24 avril (UTC+8), selon la surveillance de Beating, que la méthodologie de post-entraînement de DeepSeek V4 a subi un changement majeur : la phase de mixed RL de V3.2 a été entièrement remplacée par l'On-Policy Distillation (OPD, distillation de politique en ligne).
Le nouveau processus comporte deux étapes. Premièrement, pour les domaines tels que les mathématiques, le code, les agents et le suivi d'instructions, des modèles experts de domaine sont entraînés séparément sur la base du pipeline V3.2. Chaque expert subit d'abord un fine-tuning puis un apprentissage par renforcement avec GRPO.
Deuxièmement, en utilisant l'OPD multi-enseignants, les capacités d'une dizaine d'experts sont distillées dans un modèle unifié : l'élève, sur ses propres trajectoires générées, effectue une distillation logit sur l'ensemble du vocabulaire avec divergence KL inverse pour chaque enseignant. Grâce à l'alignement au niveau des logits, les poids des multiples experts sont combinés dans un espace de paramètres unifié, évitant les conflits de capacités courants dans le weight merging traditionnel et le mixed RL.
Le rapport propose également le Generative Reward Model (GRM, modèle de récompense génératif) : pour les tâches difficiles à vérifier avec des règles, on n'entraîne plus de modèle de récompense scalaire traditionnel. Au lieu de cela, on entraîne un GRM avec des données RL guidées par une rubrique, permettant au réseau acteur d'assumer à la fois la génération et l'évaluation. Avec un petit nombre d'annotations humaines diversifiées, il peut généraliser à des tâches complexes.
(Source : BlockBeats)
DEEPSEEK-2,53%
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé