Muchos deben haber pisado la trampa del colapso del modo, finalmente alguien lo ha explicado de manera sistemática.

Ver original
MeNews
El equipo de NLP de Stanford presenta nuevos avances en investigación de IA automatizada
La NLP de Stanford en ICML 2026 presenta cómo la ejecución automatizada convierte el preentrenamiento y el postentrenamiento de LLM en entornos de ejecución, utilizando retroalimentación de ejecución para mejorar la eficiencia de la investigación. Dos métodos: la búsqueda evolutiva supera a GRPO en tareas de postentrenamiento (69.4% frente a 48.0%), y las recetas encontradas en tareas de preentrenamiento son más rápidas que nanoGPT (19.7 minutos frente a 35.9 minutos), ambos completados en diez rondas de búsqueda; el aprendizaje por refuerzo basado en recompensas de ejecución es propenso a colapsos de patrón, aunque aumenta la recompensa media, no mejora el límite superior. Este trabajo señala la dirección para la investigación automática orientada a la ejecución en IA.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado