AIMPACT propose une méthode systématique pour transformer un modèle d'inférence post-entraînement en un solveur de niveau olympique, en trois étapes : un ajustement supervisé par un cours de perplexité inversée pour intégrer la recherche de preuve et l'auto-vérification ; une extension par apprentissage par renforcement en deux phases ; et une amélioration par mise à l'échelle lors de l'évaluation. Appliqué à l'architecture 30B-A3B, utilisant environ 340 000 trajectoires sous 8K, avec un ajustement supervisé, suivi de 200 étapes d'apprentissage par renforcement, pour obtenir SU-01. Ce modèle peut effectuer une inférence stable sur des problèmes difficiles, avec des trajectoires dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que l'IMO, USAMO, IPhO, et démontrant une capacité de généralisation en raisonnement scientifique au-delà des domaines mathématiques et physiques.

MeNews

2026-05-26 22:37:22

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), un nouvel article propose une méthode systématique pour transformer un modèle de raisonnement post-entraînement en un solveur de niveau olympique, et entraîne le modèle SU-01 basé sur cette méthode.
Cette méthode comprend trois étapes : d'abord, un ajustement supervisé avec un cours de perplexité inversée pour inculquer une recherche de preuve rigoureuse et un comportement d'auto-vérification ; ensuite, l'élargissement de ces comportements par un apprentissage par renforcement en deux phases (passant de l'apprentissage par renforcement avec récompense vérifiable à l'apprentissage par renforcement basé sur la preuve) ; enfin, une amélioration des performances par mise à l'échelle lors de la test.
L'équipe de recherche a appliqué cette méthode au modèle de base 30B-A3B, en utilisant environ 340 000 trajectoires de sous-8K tokens pour un ajustement supervisé, suivi de 200 étapes d'apprentissage par renforcement, pour obtenir SU-01.
Ce modèle peut effectuer un raisonnement stable sur des problèmes difficiles, avec une longueur de trajectoire dépassant 100 000 tokens, atteignant un niveau de médaille d'or dans des compétitions telles que IMO 2025/USAMO 2026 et IPhO 2024/2025, et démontrant une capacité de généralisation dans le domaine du raisonnement scientifique au-delà des mathématiques et de la physique.
(Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

7 J'aime

Récompense
7
6
Reposter
Partager

Commentaire

Ajouter un commentaire

BlackVelvetKeychain

· Il y a 3h

Le cours sur la perplexité inversée est une conception assez intéressante, elle encode l'expérience humaine de faire des exercices.

Voir l'originalRépondre0

OrdersPlacedBeforeTheStorm

· Il y a 3h

Le mécanisme d'auto-vérification serait beaucoup plus pratique si sa visualisation permettait de déboguer le processus de raisonnement.

Voir l'originalRépondre0

VinesCoiledIntoGeometricShapes

· Il y a 4h

Les compétitions de physique sont également couvertes, maintenant les étudiants en physique compétitive ont un entraînement avec l'IA.

Voir l'originalRépondre0

BridgeAnxiety

· Il y a 4h

Qu'est-ce que l'architecture A3B, quelqu'un peut-il expliquer en détail ?

Voir l'originalRépondre0

GateUser-ecf4759e

· Il y a 4h

Le choix de cette granularité de trajectoire 8K a ses subtilités, si c'est trop long, la propagation du gradient risque de exploser.

Voir l'originalRépondre0

FudAlsoNeedsAnImage

· Il y a 4h

La dernière phrase « la généralisation du raisonnement scientifique » m’a fait penser au paradoxe de Polanyi — nous savons plus que ce que nous exprimons, l’IA peut-elle maintenant atteindre cette partie d’intuition implicite non dite ?

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
StockTradingChallengeUpTo17000U
16.22M Popularité
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
815.38K Popularité
#
IsraelStrikesIranBTCPlunges
49.53K Popularité
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularité
#
MicronMarketCapBreaks1Trillion
35.91K Popularité

Épinglé

Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau olympique

Sujets populaires

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Épinglé