El equipo de NLP de Stanford presenta nuevos avances en investigación de IA automatizada

robot
Generación de resúmenes en curso
AIMPACT Mensaje, 15 de mayo (UTC+8), el equipo de NLP de Stanford presentó un nuevo trabajo de investigación en IA automatizada en la conferencia ICML 2026, mediante la construcción de ejecutores automáticos que convierten el preentrenamiento y postentrenamiento de LLM en entornos de ejecución, y utilizan retroalimentación de ejecución para mejorar la efectividad de la investigación.
El estudio analizó dos métodos: la búsqueda evolutiva tiene alta eficiencia en muestras, y las soluciones encontradas en tareas de postentrenamiento superan a la línea base GRPO (69.4% frente a 48.0%), mientras que las fórmulas encontradas en tareas de preentrenamiento superan a la línea base nanoGPT (19.7 minutos frente a 35.9 minutos), todo en diez ciclos de búsqueda;
por otro lado, el aprendizaje por refuerzo basado en recompensas de ejecución enfrenta problemas de colapso de patrón, aunque aumenta la recompensa media, no mejora el límite superior.
Este trabajo proporciona una dirección para la investigación automatizada de IA orientada a la ejecución. (Fuente: InFoQ)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 8
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
MintColdBrew
· hace2h
El trabajo de ICML 2026 ya está tan exigente.
Ver originalResponder0
QuietRugAlarm
· hace3h
19 minutos vs 36 minutos, nanoGPT fue derrotado claramente
Ver originalResponder0
Half-MeltedIceCreamPosition
· hace3h
La búsqueda evolutiva derrota a GRPO, esta mejora en la eficiencia es algo fuera de lo común
Ver originalResponder0
AirdropOnTheDune
· hace3h
Entorno de ejecución integrado de preentrenamiento y postentrenamiento, ¿esto busca hacer una auto-iteración de IA?
Ver originalResponder0
NodeUnderTheAurora
· hace3h
El problema del colapso de patrones es muy real, el hacking de recompensas ya es un tema recurrente.
Ver originalResponder0
SeaSaltMarketMakingNotes
· hace3h
Diez rondas de búsqueda para converger, la eficiencia de las muestras es mayor de lo que imaginaba
Ver originalResponder0
YieldNotYell
· hace3h
El ciclo de retroalimentación de ejecución es el alma de la automatización
Ver originalResponder0
  • Fijado