Evolução na busca supera o GRPO, completou a tarefa do nanoGPT em 19 minutos, enquanto leva 35 minutos. Essa automação de refinamento tem potencial.

Ver original
MeNews
Equipe de PLN de Stanford apresenta novos avanços em pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresentou a transformação do pré-treinamento e pós-treinamento de LLMs em ambientes de execução por meio de atuadores automatizados, usando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO (69,4% contra 48,0%) em tarefas de pós-treinamento, e a fórmula encontrada para tarefas de pré-treinamento é mais rápida que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o aprendizado por reforço baseado em recompensas de execução é propenso a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa de IA automatizada orientada à execução.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado