Desde SFT hasta RL y luego escalado en tiempo de prueba, las tres etapas progresivas como construir con bloques apilan el modelo pequeño de 30B hasta la medalla de oro de IMO, un camino sorprendentemente claro.

Ver original
MeNews
El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada
AIMPACT propone un método sistemático para convertir modelos de inferencia post-entrenamiento en solucionadores de nivel olímpico, en tres pasos: ajustar finamente mediante supervisión con cursos de confusión inversa para inculcar la búsqueda de pruebas y la autoevaluación; luego extender mediante un aprendizaje por refuerzo en dos etapas; y durante la prueba, realizar una escalabilidad para mejorar el rendimiento. Aplicado a la arquitectura base 30B-A3B, utilizando aproximadamente 340,000 trayectorias sub-8K para ajuste fino supervisado, seguido de 200 pasos de RL, se obtiene SU-01. Este modelo puede realizar inferencias estables en problemas difíciles, con trayectorias que superan las 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO/USAMO/IPhO, y demostrando una capacidad de generalización en razonamiento científico más allá de las matemáticas y la física.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado