Comparação de pontuação entre Sakana Fugu e Fable 5 é questionada, diferenças no scaffolding de teste podem causar desvio de 10-20 pontos.

robot
Geração de resumo em curso
ME AI notícia, segundo monitoramento do Beating, o sistema de colaboração multiagente Fugu Ultra, desenvolvido pela startup japonesa de IA Sakana AI, afirma ter derrotado o modelo flagship da Anthropic, Fable 5, em vários benchmarks de raciocínio científico e programação, mas a conclusão das pontuações foi amplamente contestada pela comunidade. As críticas apontam que comparar dados autoavaliados em ambientes de teste não uniformes não é objetivo. As pontuações dos testes dependem fortemente do scaffold/harness de execução, e diferentes scaffolds podem causar variações de 10 a 20 pontos, tornando a suposta "superação" em grande parte um produto de ajuste de engenharia de sistemas, e não uma superação geracional da capacidade do modelo subjacente. Dados de avaliação independentes mostram que o scaffold de agente construído em torno de grandes modelos tem um impacto enorme na pontuação final. No mesmo modelo Claude Opus 4.5, ao trocar apenas três scaffolds open-source diferentes, a taxa de reparo no benchmark SWE-bench Pro varia entre 50,2% e 55,4%. A análise da organização de testes terceirizada Scale AI confirma ainda que estratégias de execução, como templates de prompt, limite de tentativas, gestão de retenção de contexto e integração de chamadas de ferramentas, são suficientes para causar uma variação de 10 a 20 pontos nas pontuações do mesmo conjunto de pesos de modelo. Como os dados divulgados pela Sakana AI e pela Anthropic se baseiam em scaffolds fechados (Vendor Scaffold), especificamente ajustados para os seus próprios sistemas, e não foram testados num ambiente padronizado e independente de terceiros (como o Scale SEAL), os dados não refletem verdadeiramente a capacidade subjacente dos dois modelos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário