L'équipe NLP de Stanford présente les nouvelles avancées de la recherche en IA automatisée

robot
Création du résumé en cours
AIMPACT message, le 15 mai (UTC+8), l'équipe NLP de Stanford a présenté un nouveau travail de recherche en IA automatisée lors de la conférence ICML 2026, en construisant un exécuteur automatisé qui transforme la pré-formation et la post-formation des LLM en environnement d'exécution, et en utilisant le retour d'exécution pour améliorer l'efficacité de la recherche. La recherche a analysé deux méthodes : l'échantillonnage par recherche évolutionnaire, efficace en termes d'échantillonnage, a trouvé des méthodes supérieures à la ligne de base GRPO (69,4 % contre 48,0 %) dans les tâches de post-formation, et des formules meilleures que la ligne de base nanoGPT (19,7 minutes contre 35,9 minutes) dans les tâches de pré-formation, toutes deux terminées en dix cycles de recherche ; tandis que l'apprentissage par renforcement basé sur la récompense d'exécution fait face à un problème de défaillance de mode, augmentant la récompense moyenne mais sans améliorer le plafond. Ce travail offre une direction pour la recherche en IA automatisée orientée exécution. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • 8
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
MintColdBrew
· Il y a 2h
Le travail pour ICML 2026 est déjà si intense
Voir l'originalRépondre0
QuietRugAlarm
· Il y a 3h
19 minutes contre 36 minutes, nanoGPT a été écrasé
Voir l'originalRépondre0
Half-MeltedIceCreamPosition
· Il y a 3h
L'évolution de la recherche écrase GRPO, cette amélioration de l'efficacité est un peu incroyable
Voir l'originalRépondre0
AirdropOnTheDune
· Il y a 3h
Environnement d'exécution intégré pour la pré-formation et la post-formation, est-ce pour mettre en place une auto-itération de l'IA ?
Voir l'originalRépondre0
NodeUnderTheAurora
· Il y a 3h
Le problème de l'effondrement du mode est très réel, le hacking de récompense est un sujet récurrent.
Voir l'originalRépondre0
SeaSaltMarketMakingNotes
· Il y a 3h
Dix tours de recherche pour converger, l'efficacité de l'échantillon est plus élevée que ce que j'imaginais
Voir l'originalRépondre0
YieldNotYell
· Il y a 3h
La boucle de rétroaction de l'exécution est l'âme de l'automatisation
Voir l'originalRépondre0
  • Épinglé