El modelo de inferencia posterior entrenado SU-01 logra un rendimiento de medalla de oro en problemas de nivel Olimpiada

robot
Generación de resúmenes en curso
AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrena el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (de aprendizaje por refuerzo con recompensas verificables a aprendizaje por refuerzo a nivel de prueba);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo base 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en el campo del razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 12
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
LateEntryLarry
· Hace13m
¿Esto se considera un avance adicional en la dirección de STaR y RLHF?
Ver originalResponder0
FloatingMirrorSphere
· hace2h
La salida estable de la trayectoria sin colapsar en 100,000 tokens, también es bastante sólida en la capa de infraestructura.
Ver originalResponder0
GateUser-46c777d0
· hace6h
34 millones de trayectorias alimentadas, RL solo corre 200 pasos, la eficiencia de datos es más alta de lo que se imagina
Ver originalResponder0
CandlewickKid
· hace6h
¿La competencia de física también puede generalizar? Quiero ver cómo se desempeña en problemas de diseño experimental.
Ver originalResponder0
RetroRadioWaves
· hace6h
¿La mejora de la escalabilidad en el momento de la prueba se refiere a la escalabilidad de cálculo en tiempo de prueba?
Ver originalResponder0
ReflectiveChainShadow
· hace6h
El detalle de la trayectoria de 8K de Zizi es interesante, ¿es dividir la prueba larga en pequeños fragmentos para alimentarla?
Ver originalResponder0
ByteSizedAlpha
· hace6h
La afirmación de la generalización transversal es muy grande, espera un ejemplo concreto.
Ver originalResponder0
StainedGlassSolarArray
· hace6h
La capacidad de autoevaluación puede ser la más importante, mucho más que simplemente generar respuestas.
Ver originalResponder0
StillHereAfterTheRugPull
· hace6h
¿El nombre 30B-A3B, A3B, es el parámetro de activación?
Ver originalResponder0
GateUser-52241ed6
· hace6h
¿La medalla de oro en IMO... en el futuro las competencias tendrán una categoría para humanos y otra para IA?
Ver originalResponder0
Ver más