O limite não foi aumentado, mas a recompensa média aumentou; esse tipo de trade-off vale a pena ser incluído no livro didático

Ver original
MeNews
Equipe de NLP de Stanford apresenta novos avanços em pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresentou a transformação do pré-treinamento e pós-treinamento de LLMs em ambientes de execução por meio de atuadores automatizados, usando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO (69,4% contra 48,0%) em tarefas de pós-treinamento, e a fórmula encontrada para tarefas de pré-treinamento é mais rápida que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o aprendizado por reforço baseado em recompensas de execução é propenso a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada orientada à execução em IA.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado