AIMPACT mensaje, 16 de mayo (UTC+8), un nuevo artículo propone un método sistemático para convertir modelos de razonamiento posteriores al entrenamiento en solucionadores de nivel olímpico, y entrena el modelo SU-01 basado en ese método.
El método incluye tres pasos: primero, realizar un ajuste fino supervisado usando un curso de confusión inversa para inculcar una búsqueda de pruebas estricta y comportamientos de autoverificación;
luego, ampliar estos comportamientos mediante un aprendizaje por refuerzo en dos etapas (de aprendizaje por refuerzo con recompensas verificables a aprendizaje por refuerzo a nivel de prueba);
y finalmente, mejorar el rendimiento mediante escalado durante la prueba.
El equipo de investigación aplicó el método al modelo base 30B-A3B, usando aproximadamente 340,000 trayectorias de 8K tokens para el ajuste fino supervisado, seguido de 200 pasos de aprendizaje por refuerzo, obteniendo así SU-01.
Este modelo puede realizar razonamientos estables en problemas difíciles, con trayectorias que superan los 100,000 tokens, alcanzando nivel de medalla de oro en competencias como IMO 2025/USAMO 2026 y IPhO 2024/2025, y demostrando capacidad de generalización en el campo del razonamiento científico más allá de las matemáticas y la física.
(Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

7 me gusta

Recompensa
7
8
Republicar
Compartir

Comentar

Añadir un comentario

SucculentCross-Section

· Hace22m

¿Nivel de oro en IMO? Mejor esperar a que se reproduzca en código abierto.

Ver originalResponder0

DeepBlueStakingStone

· hace1h

34 millones de datos de trayectorias en realidad no son exagerados, pero la selección de calidad probablemente sea muy laboriosa

Ver originalResponder0

BlackVelvetKeychain

· hace6h

El diseño del curso de perplexidad inversa es bastante interesante, ha codificado la experiencia de los humanos resolviendo problemas.

Ver originalResponder0

OrdersPlacedBeforeTheStorm

· hace6h

El mecanismo de autoevaluación sería mucho más fácil de depurar si pudiera ser visualizado, ya que facilitaría el proceso de razonamiento.

Ver originalResponder0

VinesCoiledIntoGeometricShapes

· hace6h

Las competencias de física también están cubiertas, ahora los estudiantes de física tienen un compañero de práctica con IA.

Ver originalResponder0

BridgeAnxiety

· hace6h

¿De qué arquitectura se trata A3B? ¿Alguien que entienda puede explicarlo?

Ver originalResponder0

GateUser-ecf4759e

· hace6h

La elección de la granularidad de la trayectoria de 8K subes tiene sus matices, demasiado larga y la propagación del gradiente explotará.

Ver originalResponder0

FudAlsoNeedsAnImage

· hace6h

La última frase, 'razonamiento científico generalizado', me hizo pensar en la paradoja de Polanyi—sabemos más de lo que expresamos, ¿puede la IA ahora acceder a esa parte de intuiciones no articuladas?

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
16.22M Popularidad
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
816.65K Popularidad
#
IsraelStrikesIranBTCPlunges
49.57K Popularidad
#
GatePredictionMarketAddsSmartMoneyTracking
13.2M Popularidad
#
MicronMarketCapBreaks1Trillion
36.25K Popularidad

Fijado

El modelo de inferencia post-entrenamiento SU-01 logra un rendimiento de medalla de oro en preguntas de nivel Olimpiada

Temas de actualidad

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fijado