Resultados do CMA Quando o árbitro usa essa jogada, é bastante severo, Fable 5 ousa desmontar e consertar, Opus 4.7 ainda está costurando e reparando, o ciclo de feedback > a engenharia de prompts é definitiva

Ver original
CoinNetwork
AI Tia: Usando um árbitro independente para alcançar seis vezes o desempenho de Fable 5
A CoinWorld afirma que a Anthropic, em testes comparativos, gerou agentes de avaliação de pontuação em janelas de contexto independentes usando resultados do CMA, avaliando com base em nove métricas. Os resultados mostram que o ciclo de árbitros independentes fez com que o Fable 5 melhorasse a linha de produção de treinamento em 6 vezes mais do que o Opus 4.7. O Fable 5 demonstra resiliência, ousando grandes ajustes na arquitetura, mesmo com retrocessos na quantificação, insistindo na correção; em comparação, o Opus 4.7 tende a ajustar-se por meio de microajustes de template devido às limitações de decisão. Conclusão do experimento: ciclos de autorcorreção feedbackáveis e gerenciamento autônomo de memória têm mais valor prático do que simplesmente escrever prompts.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado