De SFT à RL puis à la mise à l'échelle en temps de test, les trois étapes progressives comme empiler des blocs ont permis de faire passer le petit modèle 30B jusqu'à la médaille d'or IMO, le chemin est effrayamment clair

Voir l'original
MeNews
Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau olympique
AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : effectuer un ajustement supervisé par un cours de perplexité inversée pour enseigner la recherche de preuve et l'auto-vérification ; puis étendre par un apprentissage par renforcement en deux phases ; enfin, lors de l'évaluation, effectuer une mise à l'échelle pour améliorer la performance. Appliqué à l'architecture 30B-A3B, en utilisant environ 340 000 trajectoires sub-8K pour un ajustement supervisé, suivi de 200 étapes de RL, aboutissant à SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO/USAMO/IPhO, tout en montrant une capacité de généralisation à la raisonnement scientifique dans des domaines au-delà des mathématiques et de la physique.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé