El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada

robot
Generación de resúmenes en curso
AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrenó el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación; luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (pasando del aprendizaje por refuerzo con recompensas verificables al aprendizaje por refuerzo a nivel de prueba); finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo backbone 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando niveles de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en áreas de razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 6
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
NoSleepBridge
· hace4h
¿Puede otra disciplina copiar la metodología de transformación posterior al entrenamiento?
Ver originalResponder0
ExitLiquidityStan
· hace4h
El mecanismo de autoevaluación es clave, y muchos modelos carecen de esto.
Ver originalResponder0
NftsOutsideTheTidalLine
· hace4h
34 millones de trayectorias alimentadas, RL solo 200 pasos, la eficiencia es impresionante
Ver originalResponder0
PineNeedlesAndColdWind
· hace4h
Finalmente alguien ha considerado la búsqueda de pruebas como una habilidad central, y la dirección es correcta
Ver originalResponder0
MirrorPetals
· hace4h
¿También se puede hacer en la Olimpiada de física? Esta capacidad de generalización es realmente inesperada
Ver originalResponder0
SudoSoul
· hace4h
Nivel de oro de IMO... ¿A partir de ahora las competencias se dividirán en grupo humano y grupo AI?
Ver originalResponder0