Avaliação interna do V4-Pro: taxa de aprovação de codificação se aproxima do Opus4.5, 52% dos testadores internos o reconhecem como modelo padrão.

robot
Geração do resumo em andamento
ME News mensagem, 24 de abril (UTC+8), de acordo com o monitoramento do Dongcha Beating, a V4 raramente divulgou dados internos de dogfooding. A equipe coletou cerca de 200 tarefas reais de desenvolvimento de pesquisa de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correção de bugs, refatoração e diagnóstico, com pilha de tecnologia incluindo PyTorch, CUDA, Rust, C++. Após triagem rigorosa, 30 foram retidos como conjunto de avaliação. A taxa de aprovação do V4-Pro-Max foi de 67%, significativamente maior que os 47% do Sonnet 4.5, próximo aos 70% do Opus 4.5, mas inferior aos 73% do Opus 4.5 Thinking e aos 80% do Opus 4.6 Thinking. A taxa de aprovação do Haiku 4.5 foi de apenas 13%. Em uma pesquisa interna com N=85, todos os entrevistados usam o V4-Pro para codificação agentiva no trabalho diário. 52% consideram o V4-Pro como modelo de codificação principal padrão, 39% tendem a aprovar, menos de 9% desaprovam. Os principais problemas relatados incluem erros de baixo nível, mal-entendidos de prompts vagos e ocasionais pensamentos excessivos. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado