Cours de perplexité inverse + apprentissage par renforcement en deux étapes + extension lors du test, cette combinaison a repoussé les limites des mathématiques et de la physique, la généralisation du raisonnement scientifique étant la véritable arme secrète

Voir l'original
MeNews
Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau olympique
AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : effectuer un ajustement supervisé par un cours de perplexité inversée pour enseigner la recherche de preuve et l'auto-vérification ; puis étendre par un apprentissage par renforcement en deux phases ; enfin, lors de l'évaluation, effectuer une mise à l'échelle pour améliorer la performance. Appliqué à l'architecture 30B-A3B, en utilisant environ 340 000 trajectoires sub-8K pour un ajustement supervisé, suivi de 200 étapes de RL, aboutissant à SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO/USAMO/IPhO, tout en montrant une capacité de généralisation à la raisonnement scientifique dans des domaines au-delà des mathématiques et de la physique.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé