Le modèle d'inférence post-entraînement SU-01 a atteint des performances de médaille d'or dans des questions de niveau olympique

robot
Création du résumé en cours
AIMPACT message, le 16 mai (UTC+8), un nouvel article propose une méthode systématique pour transformer un modèle de raisonnement post-entraînement en un solveur de niveau olympique, et entraîne le modèle SU-01 basé sur cette méthode.
Cette méthode comprend trois étapes : d'abord, un ajustement supervisé avec un cours de perplexité inversée pour inculquer une recherche de preuve rigoureuse et un comportement d'auto-vérification ; ensuite, l'élargissement de ces comportements par un apprentissage par renforcement en deux phases (passant de l'apprentissage par renforcement avec récompense vérifiable à un apprentissage par renforcement basé sur la preuve) ; enfin, une amélioration des performances par mise à l'échelle lors de la test.
L'équipe de recherche a appliqué la méthode au modèle de base 30B-A3B, en utilisant environ 340 000 trajectoires de sous-8K tokens pour un ajustement supervisé, suivi de 200 étapes d'apprentissage par renforcement, pour obtenir SU-01.
Ce modèle peut effectuer un raisonnement stable sur des problèmes difficiles, avec une longueur de trajectoire dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que IMO 2025/USAMO 2026 et IPhO 2024/2025, et démontrant une capacité de généralisation dans le domaine du raisonnement scientifique au-delà des mathématiques et de la physique.
(Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 11
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
SeaSaltMintCandy
· Il y a 6h
Le nom SU-01 a-t-il une signification ou est-il simplement choisi au hasard ?
Voir l'originalRépondre0
StainedGlassSolarArray
· Il y a 6h
Après la transformation de cette idée après entraînement, d'autres laboratoires devraient rapidement suivre.
Voir l'originalRépondre0
GateUser-d2929483
· Il y a 6h
Si ce travail est réel, les données du concours vont augmenter en prix
Voir l'originalRépondre0
StopRaisingGasFees.
· Il y a 6h
La RL en 200 étapes peut-elle converger ? Ou est-ce simplement un chiffre publié ?
Voir l'originalRépondre0
MetalFrameBookPageCross
· Il y a 6h
Que signifie précisément l'extension RL en deux étapes ? Y a-t-il des détails ?
Voir l'originalRépondre0
GateUser-7a050ee5
· Il y a 7h
En attente d'une source ouverte ou d'un rapport technique détaillé, je marque cela pour l'instant.
Voir l'originalRépondre0
GateUser-f4b3df7a
· Il y a 7h
Comment le mécanisme d'auto-vérification est-il mis en œuvre, y a-t-il un objectif d'entraînement distinct ?
Voir l'originalRépondre0
GateUser-e3701961
· Il y a 7h
Lors de la mise à l'échelle lors du test, s'agit-il de l'auto-cohérence ou d'une autre technique ?
Voir l'originalRépondre0
LittleBitcoinInTheReflection
· Il y a 7h
Ce niveau de 30B-A3B peut le faire ainsi, l'efficacité est bien plus élevée que GPT-4, n'est-ce pas ?
Voir l'originalRépondre0
HalfLifeHodler
· Il y a 7h
La capacité de généralisation interdomaines est la plus importante à surveiller, évitez encore une fois le surapprentissage sur le benchmark.
Voir l'originalRépondre0
Afficher plus