V4-Pro Codeforces3206 surpasse GPT-5.4 pour atteindre le sommet, mais reste inférieur à Opus et Gemini en termes de contexte long et de connaissances.

robot
Création du résumé en cours
ME News Message, 24 avril (UTC+8), selon la surveillance de Beating, le rapport technique V4 a publié une comparaison entre DeepSeek-V4-Pro-Max (mode de raisonnement le plus élevé) et les modèles propriétaires haut de gamme. Le groupe de comparaison comprend Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, ainsi que les modèles open source Kimi K2.6 et GLM-5.1, à l'exclusion des Opus 4.7 et GPT-5.5 récemment publiés. En matière de codage, V4-Pro-Max a obtenu 3206 points sur Codeforces, surpassant les 3168 de GPT-5.4 et les 3052 de Gemini 3.1 Pro, établissant un nouveau record pour ce benchmark. LiveCodeBench 93,5 est également le plus élevé de toutes les catégories. SWE Verified 80,6, légèrement inférieur aux 80,8 d'Opus 4.6, soit une différence de 0,2 point. En ce qui concerne les longs contextes, V4-Pro-Max se classe deuxième dans les deux benchmarks 1M : CorpusQA 1M obtient 62,0, derrière les 71,7 d'Opus 4.6 mais devant les 53,8 de Gemini 3.1 Pro ; MRCR 1M obtient 83,5, tandis qu'Opus 4.6 mène avec 92,9, soit près de 10 points de pourcentage d'avance. Pour les tâches Agent, MCPAtlas Public 73,6 est juste derrière les 73,8 d'Opus 4.6. Terminal-Bench 2.0 obtient 67,9, inférieur aux 75,1 de GPT-5.4 et aux 68,5 de Gemini 3.1 Pro. En matière de connaissances et de raisonnement, V4-Pro-Max présente encore des écarts significatifs : GPQA Diamond 90,1 (Gemini 94,3), SimpleQA-Verified 57,9 (Gemini 75,6), HLE 37,7 (Gemini 44,4). En tant que modèle open source, V4-Pro-Max a pour la première fois égalé ou dépassé les modèles propriétaires haut de gamme dans plusieurs benchmarks de codage et de longs contextes, mais reste en retard sur Gemini 3.1 Pro dans les évaluations intensives en connaissances. Il est à noter que la comparaison ci-dessus n'inclut pas les GPT-5.5 et Opus 4.7 récemment publiés ; l'écart entre V4 et la dernière génération de modèles propriétaires doit être vérifié par des tests tiers. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé