Stanford NLP lors de l'ICML 2026 a présenté la transformation de la pré-formation et de la post-formation des LLM en environnements d'exécution via des exécuteurs automatisés, utilisant les retours d'exécution pour améliorer l'efficacité de la recherche. Deux méthodes : la recherche évolutionnaire sur la tâche de post-formation dépasse le GRPO (69,4 % contre 48,0 %), et la formule trouvée pour la pré-formation est plus rapide que nanoGPT (19,7 minutes contre 35,9 minutes), toutes deux complétées en dix cycles de recherche ; l'apprentissage par renforcement basé sur la récompense d'exécution est sujet à des effondrements de mode, bien qu'il augmente la récompense moyenne, il n'améliore pas le plafond. Ce travail indique une direction pour la recherche automatisée en IA orientée exécution.

MeNews

2026-05-20 10:32:22

Création du résumé en cours

AIMPACT message, le 15 mai (UTC+8), l'équipe NLP de Stanford a présenté un nouveau travail de recherche en IA automatisée lors de la conférence ICML 2026, en construisant un exécuteur automatisé qui transforme la pré-formation et la post-formation des LLM en environnement d'exécution, et en utilisant le retour d'exécution pour améliorer l'efficacité de la recherche. La recherche a analysé deux méthodes : l'échantillonnage par recherche évolutionnaire, efficace en termes d'échantillonnage, a trouvé des méthodes supérieures à la ligne de base GRPO (69,4 % contre 48,0 %) dans les tâches de post-formation, et des formules meilleures que la ligne de base nanoGPT (19,7 minutes contre 35,9 minutes) dans les tâches de pré-formation, toutes deux terminées en dix cycles de recherche ; tandis que l'apprentissage par renforcement basé sur la récompense d'exécution fait face à un problème de défaillance de mode, augmentant la récompense moyenne mais sans améliorer le plafond. Ce travail offre une direction pour la recherche en IA automatisée orientée exécution. (Source : InFoQ)

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

11 J'aime

Récompense
11
7
8
Partager

Commentaire

Ajouter un commentaire

MintColdBrew

· Il y a 2h

Le travail pour ICML 2026 est déjà si intense

Voir l'originalRépondre0

QuietRugAlarm

· Il y a 3h

19 minutes contre 36 minutes, nanoGPT a été écrasé

Voir l'originalRépondre0

Half-MeltedIceCreamPosition

· Il y a 3h

L'évolution de la recherche écrase GRPO, cette amélioration de l'efficacité est un peu incroyable

Voir l'originalRépondre0

AirdropOnTheDune

· Il y a 3h

Environnement d'exécution intégré pour la pré-formation et la post-formation, est-ce pour mettre en place une auto-itération de l'IA ?

Voir l'originalRépondre0

NodeUnderTheAurora

· Il y a 3h

Le problème de l'effondrement du mode est très réel, le hacking de récompense est un sujet récurrent.

Voir l'originalRépondre0

SeaSaltMarketMakingNotes

· Il y a 3h

Dix tours de recherche pour converger, l'efficacité de l'échantillon est plus élevée que ce que j'imaginais

Voir l'originalRépondre0

YieldNotYell

· Il y a 3h

La boucle de rétroaction de l'exécution est l'âme de l'automatisation

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
192.21K Popularité
#
30YearTreasuryYieldBreaks5%
363.4K Popularité
#
IsraelStrikesIranBTCPlunges
48.28K Popularité
#
#DailyPolymarketHotspot
1M Popularité
#
RWAMarketCapExceeds65Billion
8.75M Popularité

Épinglé

L'équipe NLP de Stanford présente les nouvelles avancées de la recherche en IA automatisée

Sujets populaires

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Épinglé