El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada

robot
Generación de resúmenes en curso
AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrena el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (de aprendizaje por refuerzo con recompensas verificables a aprendizaje por refuerzo a nivel de pruebas);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo base 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en áreas de razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 11
  • 2
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
SeaSaltMintCandy
· hace5h
¿El nombre SU-01 tiene algún significado, o simplemente es un nombre al azar?
Ver originalResponder0
StainedGlassSolarArray
· hace6h
Después de la transformación posterior al entrenamiento, otros laboratorios deberían seguir rápidamente.
Ver originalResponder0
GateUser-d2929483
· hace6h
Si este trabajo es real, los datos de las preguntas de la competencia van a subir de precio
Ver originalResponder0
StopRaisingGasFees.
· hace6h
¿Con 200 pasos de RL se puede converger? ¿O es solo un número divulgado?
Ver originalResponder0
MetalFrameBookPageCross
· hace6h
¿A qué se refiere específicamente la extensión de RL en dos etapas? ¿Tiene detalles?
Ver originalResponder0
GateUser-7a050ee5
· hace7h
Esperando que haya código abierto o informes técnicos detallados, por ahora lo marco como pendiente
Ver originalResponder0
GateUser-f4b3df7a
· hace7h
¿Cómo se implementa el mecanismo de autoevaluación, tiene un objetivo de entrenamiento separado?
Ver originalResponder0
GateUser-e3701961
· hace7h
¿La mejora en la escalabilidad durante las pruebas es self-consistency o alguna otra técnica?
Ver originalResponder0
LittleBitcoinInTheReflection
· hace7h
¿Un tamaño de 30B-A3B puede lograr esto, la eficiencia es mucho mayor que GPT-4, ¿verdad?
Ver originalResponder0
HalfLifeHodler
· hace7h
La capacidad de generalización en diferentes campos es lo más importante a tener en cuenta, no sea que vuelva a ser sobreajuste en la referencia.
Ver originalResponder0
Ver más