Receta de preentrenamiento 19.7 minutos vs 35.9 minutos, con diez rondas de búsqueda se resuelve, los fanáticos de la eficiencia están en éxtasis

Ver original
MeNews
El equipo de NLP de Stanford presenta nuevos avances en investigación de IA automatizada
Stanford NLP en ICML 2026 presenta la transformación de la preentrenamiento y postentrenamiento de LLM en entornos de ejecución mediante ejecutores automatizados, utilizando retroalimentación de ejecución para mejorar la eficiencia de la investigación. Dos métodos: la búsqueda evolutiva supera a GRPO en tareas de postentrenamiento (69.4% frente a 48.0%), y las recetas encontradas en tareas de preentrenamiento son más rápidas que nanoGPT (19.7 minutos frente a 35.9 minutos), ambos completados en diez rondas de búsqueda; el aprendizaje por refuerzo basado en recompensas de ejecución es propenso a colapsos de patrón, aunque aumenta la recompensa media, no mejora el límite superior. Este trabajo señala la dirección de la investigación automática orientada a la ejecución en IA.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado