AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : un ajustement supervisé par un cours de perplexité inversée pour intégrer la recherche de preuve et l'auto-vérification ; une extension par apprentissage par renforcement en deux phases ; puis une amélioration par mise à l'échelle lors de l'évaluation. Appliqué à l'architecture 30B-A3B, utilisant environ 340 000 trajectoires sous 8K, pour un ajustement supervisé, suivi de 200 étapes d'apprentissage par renforcement, aboutissant à SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO/USAMO/IPhO, tout en montrant une capacité de généralisation en raisonnement scientifique au-delà des domaines des mathématiques et de la physique.

MeNews

2026-05-27 00:46:07

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), un nouvel article propose une méthode systématique pour transformer un modèle de raisonnement post-entraînement en un solveur de niveau olympique, et entraîne le modèle SU-01 basé sur cette méthode.
Cette méthode comprend trois étapes : d'abord, un ajustement supervisé avec un cours de perplexité inversée pour inculquer une recherche de preuve rigoureuse et un comportement d'auto-vérification ; ensuite, l'élargissement de ces comportements par un apprentissage par renforcement en deux phases (passant de l'apprentissage par renforcement avec récompense vérifiable à un apprentissage par renforcement basé sur la preuve) ; enfin, une amélioration des performances par mise à l'échelle lors de la test.
L'équipe de recherche a appliqué la méthode au modèle de base 30B-A3B, en utilisant environ 340 000 trajectoires de sous-8K tokens pour un ajustement supervisé, suivi de 200 étapes d'apprentissage par renforcement, pour obtenir SU-01.
Ce modèle peut effectuer un raisonnement stable sur des problèmes difficiles, avec une longueur de trajectoire dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que IMO 2025/USAMO 2026 et IPhO 2024/2025, et démontrant une capacité de généralisation dans le domaine du raisonnement scientifique au-delà des mathématiques et de la physique.
(Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

12 J'aime

Récompense
12
11
2
Partager

Commentaire

Ajouter un commentaire

SeaSaltMintCandy

· Il y a 6h

Le nom SU-01 a-t-il une signification ou est-il simplement choisi au hasard ?

Voir l'originalRépondre0

StainedGlassSolarArray

· Il y a 6h

Après la transformation de cette idée après entraînement, d'autres laboratoires devraient rapidement suivre.

Voir l'originalRépondre0

GateUser-d2929483

· Il y a 6h

Si ce travail est réel, les données du concours vont augmenter en prix

Voir l'originalRépondre0

StopRaisingGasFees.

· Il y a 6h

La RL en 200 étapes peut-elle converger ? Ou est-ce simplement un chiffre publié ?

Voir l'originalRépondre0

MetalFrameBookPageCross

· Il y a 6h

Que signifie précisément l'extension RL en deux étapes ? Y a-t-il des détails ?

Voir l'originalRépondre0

GateUser-7a050ee5

· Il y a 7h

En attente d'une source ouverte ou d'un rapport technique détaillé, je marque cela pour l'instant.

Voir l'originalRépondre0

GateUser-f4b3df7a

· Il y a 7h

Comment le mécanisme d'auto-vérification est-il mis en œuvre, y a-t-il un objectif d'entraînement distinct ?

Voir l'originalRépondre0

GateUser-e3701961

· Il y a 7h

Lors de la mise à l'échelle lors du test, s'agit-il de l'auto-cohérence ou d'une autre technique ?

Voir l'originalRépondre0

LittleBitcoinInTheReflection

· Il y a 7h

Ce niveau de 30B-A3B peut le faire ainsi, l'efficacité est bien plus élevée que GPT-4, n'est-ce pas ?

Voir l'originalRépondre0

HalfLifeHodler

· Il y a 7h

La capacité de généralisation interdomaines est la plus importante à surveiller, évitez encore une fois le surapprentissage sur le benchmark.

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.23M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.24K Popularité
#
IsraelStrikesIranBTCPlunges
49.57K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularité
#
MicronMarketCapBreaks1Trillion
37.13K Popularité

Épinglé

Le modèle d'inférence post-entraînement SU-01 a atteint des performances de médaille d'or dans des questions de niveau olympique

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé