La NLP de Stanford en ICML 2026 presenta cómo la ejecución automatizada convierte el preentrenamiento y el postentrenamiento de LLM en entornos de ejecución, utilizando retroalimentación de ejecución para mejorar la eficiencia de la investigación. Dos métodos: la búsqueda evolutiva supera a GRPO en tareas de postentrenamiento (69.4% frente a 48.0%), y las recetas encontradas en tareas de preentrenamiento son más rápidas que nanoGPT (19.7 minutos frente a 35.9 minutos), ambos completados en diez rondas de búsqueda; el aprendizaje por refuerzo basado en recompensas de ejecución es propenso a colapsos de patrón, aunque aumenta la recompensa media, no mejora el límite superior. Este trabajo señala la dirección para la investigación automática orientada a la ejecución en IA.

MeNews

2026-05-20 10:32:22

Generación de resúmenes en curso

AIMPACT Mensaje, 15 de mayo (UTC+8), el equipo de NLP de Stanford presentó un nuevo trabajo de investigación en IA automatizada en la conferencia ICML 2026, mediante la construcción de ejecutores automáticos que convierten el preentrenamiento y postentrenamiento de LLM en entornos de ejecución, y utilizan retroalimentación de ejecución para mejorar la efectividad de la investigación.
El estudio analizó dos métodos: la búsqueda evolutiva tiene alta eficiencia en muestras, y las soluciones encontradas en tareas de postentrenamiento superan a la línea base GRPO (69.4% frente a 48.0%), mientras que las fórmulas encontradas en tareas de preentrenamiento superan a la línea base nanoGPT (19.7 minutos frente a 35.9 minutos), todo en diez ciclos de búsqueda;
por otro lado, el aprendizaje por refuerzo basado en recompensas de ejecución enfrenta problemas de colapso de patrón, aunque aumenta la recompensa media, no mejora el límite superior.
Este trabajo proporciona una dirección para la investigación automatizada de IA orientada a la ejecución. (Fuente: InFoQ)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

11 me gusta

Recompensa
11
7
8
Compartir

Comentar

Añadir un comentario

MintColdBrew

· hace2h

El trabajo de ICML 2026 ya está tan exigente.

Ver originalResponder0

QuietRugAlarm

· hace3h

19 minutos vs 36 minutos, nanoGPT fue derrotado claramente

Ver originalResponder0

Half-MeltedIceCreamPosition

· hace3h

La búsqueda evolutiva derrota a GRPO, esta mejora en la eficiencia es algo fuera de lo común

Ver originalResponder0

AirdropOnTheDune

· hace3h

Entorno de ejecución integrado de preentrenamiento y postentrenamiento, ¿esto busca hacer una auto-iteración de IA?

Ver originalResponder0

NodeUnderTheAurora

· hace3h

El problema del colapso de patrones es muy real, el hacking de recompensas ya es un tema recurrente.

Ver originalResponder0

SeaSaltMarketMakingNotes

· hace3h

Diez rondas de búsqueda para converger, la eficiencia de las muestras es mayor de lo que imaginaba

Ver originalResponder0

YieldNotYell

· hace3h

El ciclo de retroalimentación de ejecución es el alma de la automatización

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
192.21K Popularidad
#
30YearTreasuryYieldBreaks5%
363.4K Popularidad
#
IsraelStrikesIranBTCPlunges
48.28K Popularidad
#
#DailyPolymarketHotspot
1M Popularidad
#
RWAMarketCapExceeds65Billion
8.75M Popularidad

Fijado

El equipo de NLP de Stanford presenta nuevos avances en investigación de IA automatizada

Temas de actualidad

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Fijado