Muitos devem ter caído na armadilha do colapso de padrão, finalmente alguém falou sobre isso de forma sistemática.

Ver original
MeNews
Equipe de PLN de Stanford apresenta novos avanços na pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresenta a transformação do pré-treinamento e pós-treinamento de LLM em ambientes de execução através de atuadores automatizados, utilizando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO em tarefas de pós-treinamento (69,4% contra 48,0%), e as fórmulas encontradas na fase de pré-treinamento são mais rápidas do que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o reforço baseado em recompensas de execução é suscetível a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada de IA orientada por execução.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado