Avaliação interna do V4-Pro: taxa de aprovação de codificação se aproxima do Opus 4.5, 52% dos testadores internos reconhecem como modelo padrão.

robot
Geração de resumo em curso
Notícias da ME News, 24 de abril (UTC+8), de acordo com o monitoramento da Dongcha Beating, a V4 raramente divulgou dados internos de dogfooding.
A equipa recolheu cerca de 200 tarefas reais de desenvolvimento de mais de 50 engenheiros, abrangendo desenvolvimento de funcionalidades, correção de bugs, refatoração e diagnóstico, com pilha tecnológica incluindo PyTorch, CUDA, Rust, C++. Após rigorosa triagem, 30 foram mantidos como conjunto de avaliação.
A taxa de aprovação do V4-Pro-Max é de 67%, significativamente superior aos 47% do Sonnet 4.5, próximo dos 70% do Opus 4.5, mas inferior aos 73% do Opus 4.5 Thinking e aos 80% do Opus 4.6 Thinking. A taxa de aprovação do Haiku 4.5 é de apenas 13%.
Num inquérito interno com N=85, todos os inquiridos usam o V4-Pro para agentic coding no seu trabalho diário. 52% consideram que o V4-Pro pode ser o modelo de codificação padrão principal, 39% tendem a concordar e menos de 9% discordam. Os principais problemas relatados incluem erros simples, mal-entendidos de prompts vagos e pensamento excessivo ocasional.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado