Diez rondas de búsqueda encontraron una receta casi el doble de rápida que nanoGPT, se subestimó el potencial de la ajuste automático de parámetros.

Ver original
MeNews
El equipo de NLP de Stanford presenta nuevos avances en investigación de IA automatizada
La NLP de Stanford en ICML 2026 presenta cómo convertir el preentrenamiento y el postentrenamiento de LLM en entornos de ejecución mediante ejecutores automatizados, utilizando retroalimentación de ejecución para mejorar la eficiencia de la investigación. Dos métodos: la búsqueda evolutiva supera a GRPO en tareas de postentrenamiento (69.4% frente a 48.0%), y las recetas encontradas en tareas de preentrenamiento son más rápidas que nanoGPT (19.7 minutos frente a 35.9 minutos), ambos completados en diez rondas de búsqueda; el aprendizaje por refuerzo basado en recompensas de ejecución es propenso a colapsos de patrón, aunque aumenta la recompensa media sin mejorar el límite superior. Este trabajo señala la dirección para la investigación automatizada de IA orientada a la ejecución.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado