AIMPACT propone un método de tres pasos para convertir modelos de inferencia post-entrenamiento en solucionadores de nivel olímpico: ajuste fino mediante cursos de perplexidad inversa, aprendizaje por refuerzo en dos etapas y expansión durante la prueba para mejorar. Con 30B-A3B como núcleo para entrenar SU-01, con una trayectoria de más de 100,000 tokens, alcanza niveles de medalla de oro en competencias como IMO/USAMO/IPhO y demuestra una generalización en razonamiento científico interdisciplinario. Fuente: InFoQ

MeNews

2026-05-15 21:43:33

Generación de resúmenes en curso

AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrenó el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (pasando del aprendizaje por refuerzo con recompensas verificables al aprendizaje por refuerzo a nivel de prueba);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo backbone 30B-A3B, usando aproximadamente 340,000 trayectorias de sub-8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando niveles de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en áreas de razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.85M Popularidad
#
CLARITYActPassesSenateCommittee
3.39M Popularidad
#
IsraelStrikesIranBTCPlunges
46.92K Popularidad
#
#DailyPolymarketHotspot
956.81K Popularidad
#
BitcoinVShapedReversalBack
227.02M Popularidad

Fijado

El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada.

Temas de actualidad

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Fijado