Curso de perplexidad inversa + RL en dos etapas + estandarización durante la prueba, con esta combinación, el techo del modelo de entrenamiento y inferencia posterior ha sido superado nuevamente.

Ver original
MeNews
El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada
AIMPACT propone un método sistemático para convertir modelos de inferencia post-entrenamiento en solucionadores de nivel olímpico, en tres pasos: realizar un ajuste fino supervisado con cursos de confusión inversa para inculcar la búsqueda de pruebas y la autoevaluación; luego extenderlo mediante un aprendizaje por refuerzo en dos etapas; y durante la prueba, realizar una escalabilidad para mejorar el rendimiento. Aplicado a la arquitectura 30B-A3B, utilizando aproximadamente 340,000 trayectorias sub-8K para el ajuste fino supervisado, seguido de 200 pasos de RL, se obtiene SU-01. Este modelo puede realizar inferencias estables en problemas difíciles, con trayectorias que superan las 100,000 tokens, alcanzando un nivel de medalla de oro en competencias como IMO/USAMO/IPhO, y demostrando una capacidad de generalización en razonamiento científico que trasciende los campos de las matemáticas y la física.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios