Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau olympique
AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : une fine-tuning supervisée avec un cours de perplexité inversée pour intégrer la recherche de preuve et l'auto-vérification ; une extension par apprentissage par renforcement en deux phases ; et une amélioration par mise à l'échelle lors de l'inférence. Appliqué à l'architecture 30B-A3B, utilisant environ 340 000 trajectoires sous 8K, la fine-tuning supervisée est effectuée, suivie de 200 étapes de RL, aboutissant à SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO, USAMO, IPhO, et démontrant une capacité de généralisation en raisonnement scientifique au-delà des mathématiques et de la physique.