Fórmula de pré-treinamento 19,7 minutos vs 35,9 minutos, dez rodadas de busca resolvem tudo, os fãs de eficiência ficam em êxtase

Ver original
MeNews
Equipe de NLP de Stanford apresenta novos avanços em pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresentou a transformação do pré-treinamento e pós-treinamento de LLMs em ambientes de execução por meio de atuadores automatizados, usando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO (69,4% contra 48,0%) em tarefas de pós-treinamento, e a fórmula encontrada para tarefas de pré-treinamento é mais rápida que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o aprendizado por reforço baseado em recompensas de execução é propenso a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada orientada à execução em IA.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado