Revisão Interna do DeepSeek V4-Pro: Taxa de Aprovação na Codificação Aproxima-se do Opus 4.5, 52% dos Testadores Apoiam como Modelo Padrão

De acordo com o monitoramento da Dongcha Beating, o DeepSeek V4 raramente divulgou dados internos de testes internos. A equipa recolheu cerca de 200 tarefas reais de P&D de mais de 50 engenheiros, abrangendo desenvolvimento funcional, correções de bugs, refatoração e diagnósticos, com uma pilha tecnológica que inclui PyTorch, CUDA, Rust e C++. Após uma seleção rigorosa, 30 tarefas foram retidas como conjunto de avaliação. A taxa de aprovação do V4-Pro-Max é de 67%, significativamente superior aos 47% do Sonnet 4.5, e próxima aos 70% do Opus 4.5, mas inferior aos 73% do Opus 4.5 Thinking e aos 80% do Opus 4.6 Thinking. A taxa de aprovação do Haiku 4.5 é de apenas 13%. Numa pesquisa interna com N=85, todos os entrevistados relataram usar o V4-Pro para codificação agentica no seu trabalho diário. 52% acreditam que o V4-Pro pode servir como o modelo de codificação primário padrão, 39% tendem a concordar, e menos de 9% discordam. As principais questões de feedback incluem erros básicos, mal-entendidos de prompts vagos e ocasionalmente excesso de reflexão.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar