AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrena el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (de aprendizaje por refuerzo con recompensas verificables a aprendizaje por refuerzo a nivel de prueba);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo base 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO 2025/USAMO 2026 e IPhO 2024/2025, y demostrando capacidad de generalización en el campo del razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

8 me gusta

Recompensa
8
12
Republicar
Compartir

Comentar

Añadir un comentario

LateEntryLarry

· Hace13m

¿Esto se considera un avance adicional en la dirección de STaR y RLHF?

Ver originalResponder0

FloatingMirrorSphere

· hace2h

La salida estable de la trayectoria sin colapsar en 100,000 tokens, también es bastante sólida en la capa de infraestructura.

Ver originalResponder0

GateUser-46c777d0

· hace6h

34 millones de trayectorias alimentadas, RL solo corre 200 pasos, la eficiencia de datos es más alta de lo que se imagina

Ver originalResponder0

CandlewickKid

· hace6h

¿La competencia de física también puede generalizar? Quiero ver cómo se desempeña en problemas de diseño experimental.

Ver originalResponder0

RetroRadioWaves

· hace6h

¿La mejora de la escalabilidad en el momento de la prueba se refiere a la escalabilidad de cálculo en tiempo de prueba?

Ver originalResponder0

ReflectiveChainShadow

· hace6h

El detalle de la trayectoria de 8K de Zizi es interesante, ¿es dividir la prueba larga en pequeños fragmentos para alimentarla?

Ver originalResponder0

ByteSizedAlpha

· hace6h

La afirmación de la generalización transversal es muy grande, espera un ejemplo concreto.

Ver originalResponder0

StainedGlassSolarArray

· hace6h

La capacidad de autoevaluación puede ser la más importante, mucho más que simplemente generar respuestas.

Ver originalResponder0

StillHereAfterTheRugPull

· hace6h

¿El nombre 30B-A3B, A3B, es el parámetro de activación?

Ver originalResponder0

GateUser-52241ed6

· hace6h

¿La medalla de oro en IMO... en el futuro las competencias tendrán una categoría para humanos y otra para IA?

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.23M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.72K Popularidad
#
IsraelStrikesIranBTCPlunges
49.59K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularidad
#
MicronMarketCapBreaks1Trillion
38.77K Popularidad

Fijado

El modelo de inferencia posterior entrenado SU-01 logra un rendimiento de medalla de oro en problemas de nivel Olimpiada

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado