O NLP de Stanford tornou o processo de treinamento completamente ambientalizado, talvez no futuro não seja mais necessário alguém supervisionar a calibração dos parâmetros.

Ver original
MeNews
Equipe de PLN de Stanford apresenta novos avanços em pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresenta a transformação do pré-treinamento e pós-treinamento de LLMs em ambientes de execução por meio de atuadores automatizados, usando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO (69,4% contra 48,0%) em tarefas de pós-treinamento, e a fórmula encontrada para tarefas de pré-treinamento é mais rápida que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o reforço baseado em recompensas de execução é suscetível a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa de IA automatizada orientada à execução.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado