Évaluation interne V4-Pro : le taux de réussite en codage approche celui d'Opus 4.5, 52 % des testeurs internes l'approuvent comme modèle par défaut.

robot
Création du résumé en cours
ME News, le 24 avril (UTC+8), selon le suivi de Beating, V4 a rarement publié des données internes de dogfooding.
L'équipe a collecté environ 200 tâches de développement réelles auprès de plus de 50 ingénieurs, couvrant le développement de fonctionnalités, la correction de bugs, le refactoring et le diagnostic. La pile technologique comprend PyTorch, CUDA, Rust, C++. Après une sélection rigoureuse, 30 tâches ont été retenues comme ensemble d'évaluation.
Le taux de réussite de V4-Pro-Max est de 67 %, nettement supérieur aux 47 % de Sonnet 4.5, proche des 70 % d'Opus 4.5, mais inférieur aux 73 % d'Opus 4.5 Thinking et aux 80 % d'Opus 4.6 Thinking. Le taux de réussite de Haiku 4.5 n'est que de 13 %.
Dans une enquête interne de N=85, tous les répondants utilisent V4-Pro pour du codage agentique dans leur travail quotidien. 52 % pensent que V4-Pro peut être le modèle de codage principal par défaut, 39 % sont plutôt d'accord, moins de 9 % sont en désaccord. Les principaux problèmes signalés incluent des erreurs élémentaires, des malentendus sur des prompts flous, et des réflexions excessives occasionnelles.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé