Resultados do CMA Quando o árbitro usa essa jogada, é bastante severo, Fable 5 ousa desmontar e consertar, Opus 4.7 ainda está costurando e ajustando, o ciclo de feedback > a engenharia de prompts é definitiva

Ver original
CoinNetwork
AI tia: usando um árbitro independente para alcançar seis vezes o desempenho de Fable 5
A Binance News afirma que, nos testes de comparação, a Anthropic gerou agentes de avaliação de pontuação em janelas de contexto independentes através de resultados CMA, avaliando com base em nove indicadores. Os resultados mostram que o ciclo de avaliação independente fez com que o Fable 5 superasse a melhoria na linha de produção de treinamento do Opus 4.7 em 6 vezes. O Fable 5 demonstra resiliência, ousando grandes ajustes na arquitetura, mesmo com retrocessos na quantificação, mantendo o reparo; em comparação, o Opus 4.7 tende a se inclinar para ajustes de modelo devido a limitações de decisão. Conclusão do experimento: ciclos de autocorreção com feedback e gerenciamento autônomo de memória têm mais valor prático do que simplesmente escrever prompts.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado