Ramp lança o benchmark privado SWE-Bench: Claude Fable 5 vence com uma taxa de vitória de 87,5%

robot
Geração do resumo em andamento
Notícias do Coinjie.com, a Ramp lançou o benchmark de teste privado Ramp SWE-Bench para agentes inteligentes de codificação de IA de ponta.
Este benchmark inclui 80 tarefas de desenvolvimento de backend originadas do ambiente de produção real da Ramp, com o objetivo de resolver problemas de vazamento de dados e saturação de métricas causados por conjuntos de dados públicos de avaliação devido ao pré-treinamento do modelo.
Com base nos resultados de avaliação comparativa de 14 modelos divulgados, o Claude Fable 5, lançado recentemente pela Anthropic, lidera com uma taxa de resolução de 87,5%, seguido pelo Claude Opus 4.7 e GPT-5.5 empatados em segundo lugar, ambos com uma taxa de resolução de 83,75%.
Os dados de teste também revelam o compromisso entre preço e desempenho de diferentes modelos, com o modelo doméstico Kimi K2.6 e o GLM 5.1 apresentando taxas de resolução próximas, de 72,5% e 71,25%, respectivamente, mas o Kimi K2.6 tem um custo médio de 0,69 dólares, cerca de 34% mais barato que o GLM 5.1.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 3
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
VolatilityOfToastingBread
· 2h atrás
Vazamento de dados realmente é um grande problema, apenas testes privados são convincentes
Ver originalResponder0
Lemon-FlavoredLiquidation
· 2h atrás
Como a Claude consegue oferecer esse desempenho pelo preço, qual é a estratégia da Anthropic para reduzir os custos de infraestrutura?
Ver originalResponder0
RetroRadioSignal
· 2h atrás
Kimi oferece uma ótima relação custo-benefício, 0,69 dólares e ainda quer mais?
Ver originalResponder0
  • Fixado