Alerte de défaillance du mode : la récompense RL a augmenté mais la limite n'a pas bougé, cette ligne doit être soulignée.

Voir l'original
MeNews
L'équipe NLP de Stanford présente de nouvelles avancées dans la recherche en IA automatisée
Stanford NLP lors de l'ICML 2026 a présenté la transformation de la pré-formation et de la post-formation des LLM en environnements d'exécution via des exécuteurs automatisés, utilisant les retours d'exécution pour améliorer l'efficacité de la recherche. Deux méthodes : la recherche évolutionnaire sur la tâche de post-formation dépasse le GRPO (69,4 % contre 48,0 %), et la formule trouvée pour la pré-formation est plus rapide que nanoGPT (19,7 minutes contre 35,9 minutes), toutes deux complétées en dix cycles de recherche ; l'apprentissage par renforcement basé sur la récompense d'exécution est sujet à des effondrements de mode, bien qu'il augmente la récompense moyenne, il n'améliore pas le plafond. Ce travail indique une direction pour la recherche automatisée en IA orientée exécution.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé