Comparação de benchmarks entre Sakana Fugu e Fable 5 é questionada, diferenças no scaffolding de teste podem causar desvio de 10-20 pontos.

robot
Geração do resumo em andamento
ME AI Notícia, de acordo com o monitoramento do Beating, o sistema multiagente colaborativo Fugu Ultra, desenvolvido pela startup japonesa de IA Sakana AI, afirma ter derrotado o modelo carro-chefe da Anthropic, Fable 5, em vários benchmarks de raciocínio científico e programação, mas a conclusão do resultado foi amplamente questionada pela comunidade. Críticas apontam que comparar dados de autoteste em ambientes de teste não unificados não é objetivo. As pontuações dos testes dependem fortemente do scaffold/harness de execução, e diferentes scaffolds podem causar variações de 10 a 20 pontos, tornando o chamado "superação", em grande parte, um produto de ajuste de engenharia de sistemas, em vez de uma superação geracional da capacidade do modelo subjacente. Dados de avaliação independentes mostram que o scaffold de agentes construído em torno de grandes modelos tem um enorme impacto no resultado final. No mesmo modelo Claude Opus 4.5, apenas trocando três scaffolds de código aberto diferentes, a taxa de correção no benchmark SWE-bench Pro varia de 50,2% a 55,4%. A análise do instituto de testes terceirizado Scale AI confirma ainda que estratégias de execução, como templates de prompt, limite máximo de tentativas, gerenciamento de retenção de contexto e integração de chamadas de ferramentas, são suficientes para causar uma variação de 10 a 20 pontos nas pontuações do mesmo conjunto de pesos de modelo. Como os dados divulgados pela Sakana AI e pela Anthropic são baseados em scaffolds fechados (Vendor Scaffold) otimizados para seus próprios sistemas, e não testados em um ambiente terceirizado padronizado e independente (como Scale SEAL), os dados não refletem verdadeiramente a força das capacidades subjacentes dos dois modelos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários