Examen interne de DeepSeek V4-Pro : le taux de réussite au codage approche Opus 4.5, 52 % des testeurs approuvent comme modèle par défaut

Selon la surveillance de Dongcha Beating, DeepSeek V4 a rarement divulgué des données internes de test en conditions réelles. L’équipe a collecté environ 200 tâches de R&D réelles auprès de plus de 50 ingénieurs, couvrant le développement fonctionnel, la correction de bugs, la refactorisation et le diagnostic, avec une pile technologique comprenant PyTorch, CUDA, Rust et C++. Après une sélection rigoureuse, 30 tâches ont été retenues comme ensemble d’évaluation. Le taux de réussite de V4-Pro-Max est de 67 %, nettement supérieur à celui de Sonnet 4.5, qui est de 47 %, et proche de celui d’Opus 4.5, qui est de 70 %, mais inférieur à celui d’Opus 4.5 Thinking, qui est de 73 %, et d’Opus 4.6 Thinking, qui est de 80 %. Le taux de réussite pour Haiku 4.5 n’est que de 13 %. Lors d’une enquête interne avec N=85, tous les répondants ont indiqué utiliser V4-Pro pour la programmation agentique dans leur travail quotidien. 52 % pensent que V4-Pro peut servir de modèle de codage principal par défaut, 39 % tendent à être d’accord, et moins de 9 % sont en désaccord. Les principaux retours concernent des erreurs de base, des malentendus des prompts vagues, et des réflexions excessives occasionnelles.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler