El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada

robot
Generación de resúmenes en curso
AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrena el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (de aprendizaje por refuerzo con recompensas verificables a aprendizaje por refuerzo a nivel de prueba);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo base 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO 2025/USAMO 2026 y IPhO 2024/2025, y demostrando capacidad de generalización en el campo del razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
SucculentCross-Section
· Hace22m
¿Nivel de oro en IMO? Mejor esperar a que se reproduzca en código abierto.
Ver originalResponder0
DeepBlueStakingStone
· hace1h
34 millones de datos de trayectorias en realidad no son exagerados, pero la selección de calidad probablemente sea muy laboriosa
Ver originalResponder0
BlackVelvetKeychain
· hace6h
El diseño del curso de perplexidad inversa es bastante interesante, ha codificado la experiencia de los humanos resolviendo problemas.
Ver originalResponder0
OrdersPlacedBeforeTheStorm
· hace6h
El mecanismo de autoevaluación sería mucho más fácil de depurar si pudiera ser visualizado, ya que facilitaría el proceso de razonamiento.
Ver originalResponder0
VinesCoiledIntoGeometricShapes
· hace6h
Las competencias de física también están cubiertas, ahora los estudiantes de física tienen un compañero de práctica con IA.
Ver originalResponder0
BridgeAnxiety
· hace6h
¿De qué arquitectura se trata A3B? ¿Alguien que entienda puede explicarlo?
Ver originalResponder0
GateUser-ecf4759e
· hace6h
La elección de la granularidad de la trayectoria de 8K subes tiene sus matices, demasiado larga y la propagación del gradiente explotará.
Ver originalResponder0
FudAlsoNeedsAnImage
· hace6h
La última frase, 'razonamiento científico generalizado', me hizo pensar en la paradoja de Polanyi—sabemos más de lo que expresamos, ¿puede la IA ahora acceder a esa parte de intuiciones no articuladas?
Ver originalResponder0