Equipe de PLN de Stanford apresenta novos avanços na pesquisa de IA automatizada

robot
Geração de resumo em curso
AIMPACT mensagem, 15 de maio (UTC+8), a equipe de NLP de Stanford apresentou uma nova pesquisa automatizada de IA na conferência ICML 2026, construindo um executor automatizado que transforma o pré-treinamento e pós-treinamento de LLM em um ambiente de execução, e utilizando feedback de execução para melhorar a eficácia da pesquisa. A pesquisa analisou duas abordagens: a busca evolutiva tem alta eficiência de amostragem, com métodos encontrados na tarefa de pós-treinamento superando a linha de base GRPO (69,4% versus 48,0%), e as fórmulas encontradas na tarefa de pré-treinamento superando a linha de base nanoGPT (19,7 minutos versus 35,9 minutos), ambas concluídas em dez ciclos de busca; enquanto o reforço baseado em recompensas de execução enfrenta problemas de colapso de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho fornece uma direção para a pesquisa automatizada de IA orientada à execução. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 8
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
MintColdBrew
· 2h atrás
O trabalho do ICML 2026 já está tão intenso assim
Ver originalResponder0
QuietRugAlarm
· 3h atrás
19 minutos vs 36 minutos, nanoGPT foi completamente superado
Ver originalResponder0
Half-MeltedIceCreamPosition
· 3h atrás
Evolução da busca vence o GRPO, essa melhoria de eficiência é meio absurda
Ver originalResponder0
AirdropOnTheDune
· 3h atrás
Ambiente de execução integrado de pré-treinamento e pós-treinamento, isto é para fazer auto-iteração de IA?
Ver originalResponder0
NodeUnderTheAurora
· 3h atrás
O problema do colapso de modo é muito real, o hacking de recompensas é um tema recorrente.
Ver originalResponder0
SeaSaltMarketMakingNotes
· 3h atrás
A busca em dez rodadas converge, a eficiência de amostragem é maior do que eu imaginava
Ver originalResponder0
YieldNotYell
· 3h atrás
O ciclo de feedback de execução é a alma da automação
Ver originalResponder0
  • Fixado