AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrena el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (de aprendizaje por refuerzo con recompensas verificables a aprendizaje por refuerzo a nivel de pruebas);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo base 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en áreas de razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

12 me gusta

Recompensa
12
11
2
Compartir

Comentar

Añadir un comentario

SeaSaltMintCandy

· hace5h

¿El nombre SU-01 tiene algún significado, o simplemente es un nombre al azar?

Ver originalResponder0

StainedGlassSolarArray

· hace6h

Después de la transformación posterior al entrenamiento, otros laboratorios deberían seguir rápidamente.

Ver originalResponder0

GateUser-d2929483

· hace6h

Si este trabajo es real, los datos de las preguntas de la competencia van a subir de precio

Ver originalResponder0

StopRaisingGasFees.

· hace6h

¿Con 200 pasos de RL se puede converger? ¿O es solo un número divulgado?

Ver originalResponder0

MetalFrameBookPageCross

· hace6h

¿A qué se refiere específicamente la extensión de RL en dos etapas? ¿Tiene detalles?

Ver originalResponder0

GateUser-7a050ee5

· hace7h

Esperando que haya código abierto o informes técnicos detallados, por ahora lo marco como pendiente

Ver originalResponder0

GateUser-f4b3df7a

· hace7h

¿Cómo se implementa el mecanismo de autoevaluación, tiene un objetivo de entrenamiento separado?

Ver originalResponder0

GateUser-e3701961

· hace7h

¿La mejora en la escalabilidad durante las pruebas es self-consistency o alguna otra técnica?

Ver originalResponder0

LittleBitcoinInTheReflection

· hace7h

¿Un tamaño de 30B-A3B puede lograr esto, la eficiencia es mucho mayor que GPT-4, ¿verdad?

Ver originalResponder0

HalfLifeHodler

· hace7h

La capacidad de generalización en diferentes campos es lo más importante a tener en cuenta, no sea que vuelva a ser sobreajuste en la referencia.

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.23M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.24K Popularidad
#
IsraelStrikesIranBTCPlunges
49.57K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularidad
#
MicronMarketCapBreaks1Trillion
37.13K Popularidad

Fijado

El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado