AIMPACT propose une méthode en trois étapes pour transformer un modèle d'inférence après entraînement en un solveur de niveau olympique : ajustement fin par cours de perplexité inversée, apprentissage par renforcement en deux phases, et extension lors de l'évaluation pour améliorer la performance. En utilisant 30B-A3B comme base pour entraîner SU-01, avec plus de 100 000 tokens de trajectoire, il atteint un niveau de médaille d'or dans des compétitions telles que l'IMO/USAMO/IPhO, tout en démontrant une généralisation en raisonnement scientifique interdomaines. Source : InFoQ

MeNews

2026-05-15 21:43:33

Création du résumé en cours

AIMPACT message, le 16 mai (UTC+8), un nouvel article propose une méthode systématique pour transformer un modèle de raisonnement post-entraînement en un solveur de niveau olympique, et entraîne le modèle SU-01 basé sur cette méthode.
Cette méthode comprend trois étapes : d’abord, un ajustement supervisé avec un cours de perplexité inversée pour inculquer une recherche de preuve rigoureuse et un comportement d’auto-vérification ; ensuite, l’élargissement de ces comportements par un apprentissage par renforcement en deux phases (passant de l’apprentissage par renforcement avec récompense vérifiable à un apprentissage par renforcement basé sur la preuve) ; enfin, une amélioration des performances par mise à l’échelle lors de la test.
L’équipe de recherche a appliqué cette méthode à un modèle de base 30B-A3B, en utilisant environ 340 000 trajectoires de sous-8K tokens pour un ajustement supervisé, suivi de 200 étapes d’apprentissage par renforcement, pour obtenir SU-01.
Ce modèle peut effectuer un raisonnement stable sur des problèmes difficiles, avec une longueur de trajectoire dépassant 100 000 tokens, atteignant un niveau de médaille d’or dans des compétitions telles que IMO 2025/USAMO 2026 et IPhO 2024/2025, et montrant une capacité de généralisation dans le domaine du raisonnement scientifique au-delà des mathématiques et de la physique.
(Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateSquareMayTradingShare
1.86M Popularité
#
CLARITYActPassesSenateCommittee
3.39M Popularité
#
IsraelStrikesIranBTCPlunges
46.99K Popularité
#
#DailyPolymarketHotspot
961.22K Popularité
#
BitcoinVShapedReversalBack
227.03M Popularité

Épinglé

Le modèle d'inférence post-entraînement SU-01 atteint des performances de médaille d'or sur des questions de niveau Olympiade

Sujets populaires

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Épinglé