Le monstre de raisonnement alimenté par 340 000 trajectoires, le nom SU-01 a vraiment quelque chose d'original

Voir l'original
MeNews
Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau olympique
AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : une fine-tuning supervisée avec un cours de perplexité inversée pour intégrer la recherche de preuve et l'auto-vérification ; une extension par apprentissage par renforcement en deux phases ; et une amélioration par mise à l'échelle lors de l'inférence. Appliqué à l'architecture 30B-A3B, utilisant environ 340 000 trajectoires sous 8K, la fine-tuning supervisée est effectuée, suivie de 200 étapes de RL, aboutissant à SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO, USAMO, IPhO, et démontrant une capacité de généralisation en raisonnement scientifique au-delà des mathématiques et de la physique.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé