Stanford NLP na ICML 2026 apresenta a transformação do pré-treinamento e pós-treinamento de LLM em ambientes de execução através de atuadores automatizados, utilizando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO em tarefas de pós-treinamento (69,4% contra 48,0%), e as fórmulas encontradas na fase de pré-treinamento são mais rápidas do que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o reforço baseado em recompensas de execução é suscetível a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada de IA orientada por execução.

MeNews

2026-05-20 10:32:22

Geração de resumo em curso

AIMPACT mensagem, 15 de maio (UTC+8), a equipe de NLP de Stanford apresentou uma nova pesquisa automatizada de IA na conferência ICML 2026, construindo um executor automatizado que transforma o pré-treinamento e pós-treinamento de LLM em um ambiente de execução, e utilizando feedback de execução para melhorar a eficácia da pesquisa. A pesquisa analisou duas abordagens: a busca evolutiva tem alta eficiência de amostragem, com métodos encontrados na tarefa de pós-treinamento superando a linha de base GRPO (69,4% versus 48,0%), e as fórmulas encontradas na tarefa de pré-treinamento superando a linha de base nanoGPT (19,7 minutos versus 35,9 minutos), ambas concluídas em dez ciclos de busca; enquanto o reforço baseado em recompensas de execução enfrenta problemas de colapso de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho fornece uma direção para a pesquisa automatizada de IA orientada à execução. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

11 gostos

Recompensa
11
7
8
Partilhar

Comentar

Adicionar um comentário

MintColdBrew

· 2h atrás

O trabalho do ICML 2026 já está tão intenso assim

Ver originalResponder0

QuietRugAlarm

· 3h atrás

19 minutos vs 36 minutos, nanoGPT foi completamente superado

Ver originalResponder0

Half-MeltedIceCreamPosition

· 3h atrás

Evolução da busca vence o GRPO, essa melhoria de eficiência é meio absurda

Ver originalResponder0

AirdropOnTheDune

· 3h atrás

Ambiente de execução integrado de pré-treinamento e pós-treinamento, isto é para fazer auto-iteração de IA?

Ver originalResponder0

NodeUnderTheAurora

· 3h atrás

O problema do colapso de modo é muito real, o hacking de recompensas é um tema recorrente.

Ver originalResponder0

SeaSaltMarketMakingNotes

· 3h atrás

A busca em dez rodadas converge, a eficiência de amostragem é maior do que eu imaginava

Ver originalResponder0

YieldNotYell

· 3h atrás

O ciclo de feedback de execução é a alma da automação

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
192.21K Popularidade
#
30YearTreasuryYieldBreaks5%
363.4K Popularidade
#
IsraelStrikesIranBTCPlunges
48.28K Popularidade
#
#DailyPolymarketHotspot
1M Popularidade
#
RWAMarketCapExceeds65Billion
8.75M Popularidade

Fixado

Equipe de PLN de Stanford apresenta novos avanços na pesquisa de IA automatizada

Tópicos em destaque

TradfiTradingChallenge

30YearTreasuryYieldBreaks5%

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

RWAMarketCapExceeds65Billion

Fixado