AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : effectuer un ajustement supervisé par un cours de perplexité inversée pour enseigner la recherche de preuve et l'auto-vérification ; puis étendre par un apprentissage par renforcement en deux phases ; enfin, lors de la phase de test, appliquer une mise à l'échelle pour améliorer la performance. En l'appliquant à un backbone 30B-A3B, en utilisant environ 340 000 trajectoires sous 8K sous-espaces, un ajustement supervisé est effectué, suivi de 200 étapes d'apprentissage par renforcement, aboutissant à SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO, l'USAMO, l'IPhO, et démontrant une capacité de généralisation à la raisonnement scientifique au-delà des domaines des mathématiques et de la physique.

MeNews

2026-05-27 04:17:37

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), un nouvel article propose une méthode systématique pour transformer un modèle de raisonnement post-entraînement en un solveur de niveau olympique, et entraîne le modèle SU-01 basé sur cette méthode.
Cette méthode comprend trois étapes : d'abord, un ajustement supervisé avec un cours de perplexité inversée pour inculquer une recherche de preuve rigoureuse et un comportement d'auto-vérification ; ensuite, l'élargissement de ces comportements par un apprentissage par renforcement en deux phases (passant de l'apprentissage par renforcement avec récompense vérifiable à un apprentissage par renforcement basé sur la preuve) ; enfin, une amélioration des performances par mise à l'échelle lors de la test.
L'équipe de recherche a appliqué la méthode au modèle de base 30B-A3B, en utilisant environ 340 000 trajectoires de sous-8K tokens pour un ajustement supervisé, suivi de 200 étapes d'apprentissage par renforcement, pour obtenir SU-01.
Ce modèle peut effectuer un raisonnement stable sur des problèmes difficiles, avec une longueur de trajectoire dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que IMO 2025/USAMO 2026 et IPhO 2024/2025, et démontrant une capacité de généralisation dans le domaine du raisonnement scientifique au-delà des mathématiques et de la physique.
(Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

8 J'aime

Récompense
8
10
Reposter
Partager

Commentaire

Ajouter un commentaire

GateUser-46c777d0

· Il y a 2h

34 000 trajets alimentés, RL n'a exécuté que 200 étapes, l'efficacité des données est plus élevée que ce que l'on imaginait

Voir l'originalRépondre0

CandlewickKid

· Il y a 3h

L'Olympiade de physique peut-elle aussi se généraliser ? Je veux voir comment elle se comporte sur des questions de conception expérimentale.

Voir l'originalRépondre0

RetroRadioWaves

· Il y a 3h

La normalisation lors du test fait référence à la mise à l'échelle du calcul au moment du test ?

Voir l'originalRépondre0

ReflectiveChainShadow

· Il y a 3h

Le détail de la trajectoire 8K est intéressant, est-ce qu'il s'agit de diviser une longue preuve en petits morceaux pour l'alimenter ?

Voir l'originalRépondre0

ByteSizedAlpha

· Il y a 3h

La généralisation interdomaines est une affirmation très forte, attendez un exemple concret.

Voir l'originalRépondre0

StainedGlassSolarArray

· Il y a 3h

La capacité d'auto-vérification pourrait être la plus cruciale, bien plus importante que de simplement générer une réponse.

Voir l'originalRépondre0

StillHereAfterTheRugPull

· Il y a 3h

Ce nom 30B-A3B, est-ce que A3B est un paramètre d'activation ?

Voir l'originalRépondre0

GateUser-52241ed6

· Il y a 3h

IMO de niveau médaille d'or... À l'avenir, les compétitions devront-elles être divisées en groupe humain et groupe IA ?

Voir l'originalRépondre0

GateUser-e72657f0

· Il y a 3h

Le concept de cours sur l'inverse de la perplexité est brillant, permettant au modèle d'apprendre d'abord à douter de lui-même.

Voir l'originalRépondre0

GateUser-d2b4d9c6

· Il y a 3h

Une chaîne de raisonnement de 100 000 tokens, ce n'est plus simplement faire des exercices, c'est écrire une thèse.

Voir l'originalRépondre0

Afficher plus

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.23M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.01K Popularité
#
IsraelStrikesIranBTCPlunges
49.57K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularité
#
MicronMarketCapBreaks1Trillion
37.03K Popularité

Épinglé

Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau olympique

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé