Datacurve esta rodada do DeepSWE de código aberto é bastante sólida, cobertura de cinco idiomas, média de 668 linhas de profundidade de resposta, o framework Mini-SWE-Agent também foi lançado, no futuro será possível medir a capacidade de código de grandes modelos com uma régua.

Ver original
CoinNetwork
Datacurve agente inteligente de código aberto DeepSWE, quantidade de código de referência atinge cinco vezes o SWE-Bench
Datacurve anuncia a abertura do código do agente inteligente DeepSWE para programação, avaliando a capacidade de programação autônoma de grandes modelos.
A referência inclui 113 tarefas, cobrindo cinco linguagens: TypeScript, Go, Python, JavaScript e Rust, com uma média de 668 linhas de solução de referência.
A média de instruções de prompt é de 2158 caracteres, enfatizando raciocínio profundo sob instruções extremamente simples.
O teste utiliza a estrutura de código aberto Mini-SWE-Agent, garantindo objetividade.
A taxa de solução do GPT-5.5 é de 70%, enquanto GPT-5.4 e Claude-opus-4.7 são de 56% e 54%, respectivamente.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado