AIMPACT propone un método sistemático para convertir modelos de inferencia post-entrenamiento en solucionadores de nivel olímpico, en tres pasos: realizar un ajuste fino supervisado con cursos de confusión inversa para inculcar la búsqueda de pruebas y la autoevaluación; luego extenderlo mediante un aprendizaje por refuerzo en dos etapas; y durante la prueba, realizar una escalabilidad para mejorar el rendimiento. Aplicado a la arquitectura 30B-A3B, utilizando aproximadamente 340,000 trayectorias sub-8K para el ajuste fino supervisado, seguido de 200 pasos de RL, se obtiene SU-01. Este modelo puede realizar inferencias estables en problemas difíciles, con trayectorias que superan las 100,000 tokens, alcanzando un nivel de medalla de oro en competencias como IMO/USAMO/IPhO, y demostrando una capacidad de generalización en razonamiento científico que trasciende los campos de las matemáticas y la física.

MeNews

2026-05-26 18:44:37

Generación de resúmenes en curso

AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrenó el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación; luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (pasando del aprendizaje por refuerzo con recompensas verificables al aprendizaje por refuerzo a nivel de prueba); finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo backbone 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando niveles de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en áreas de razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
6
2
Compartir

Comentar

Añadir un comentario

NoSleepBridge

· hace4h

¿Puede otra disciplina copiar la metodología de transformación posterior al entrenamiento?

Ver originalResponder0

ExitLiquidityStan

· hace4h

El mecanismo de autoevaluación es clave, y muchos modelos carecen de esto.

Ver originalResponder0

NftsOutsideTheTidalLine

· hace4h

34 millones de trayectorias alimentadas, RL solo 200 pasos, la eficiencia es impresionante

Ver originalResponder0

PineNeedlesAndColdWind

· hace4h

Finalmente alguien ha considerado la búsqueda de pruebas como una habilidad central, y la dirección es correcta

Ver originalResponder0

MirrorPetals

· hace4h

¿También se puede hacer en la Olimpiada de física? Esta capacidad de generalización es realmente inesperada

Ver originalResponder0

SudoSoul

· hace4h

Nivel de oro de IMO... ¿A partir de ahora las competencias se dividirán en grupo humano y grupo AI?

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.22M Popularidad
#
USStrikesIran
9.32M Popularidad
#
IsraelStrikesIranBTCPlunges
49.49K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M Popularidad
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularidad

Fijado

El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada

Temas de actualidad

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Fijado