V4-Pro Codeforces3206 surpasse GPT-5.4 pour atteindre le sommet, mais le contexte long et les connaissances perdent encore face à Opus et Gemini.

ME News rapporte que, le 24 avril (UTC+8), selon la surveillance de Beating, le rapport technique V4 a publié une comparaison entre DeepSeek-V4-Pro-Max (mode de raisonnement maximal) et les flagships propriétaires. Le groupe de comparaison comprend Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, ainsi que les open-source Kimi K2.6 et GLM-5.1, sans inclure les récemment publiés Opus 4.7 et GPT-5.5. En codage, V4-Pro-Max a obtenu 3206 points sur Codeforces, dépassant les 3168 de GPT-5.4 et les 3052 de Gemini 3.1 Pro, établissant un nouveau record sur ce benchmark. LiveCodeBench 93,5 est également le plus élevé. SWE Verified 80,6, juste 0,2 point de moins que les 80,8 d'Opus 4.6. En contexte long, V4-Pro-Max est deuxième sur les deux benchmarks 1M : CorpusQA 1M avec 62,0, derrière Opus 4.6 (71,7) mais devant Gemini 3.1 Pro (53,8) ; MRCR 1M avec 83,5, tandis qu'Opus 4.6 mène avec 92,9, soit près de 10 points d'avance. Pour les tâches d'agent, MCPAtlas Public 73,6 juste derrière Opus 4.6 (73,8). Terminal-Bench 2.0 obtient 67,9, inférieur aux 75,1 de GPT-5.4 et aux 68,5 de Gemini 3.1 Pro. En connaissances et raisonnement, V4-Pro-Max montre encore des lacunes : GPQA Diamond 90,1 (Gemini 94,3), SimpleQA-Verified 57,9 (Gemini 75,6), HLE 37,7 (Gemini 44,4). En tant que modèle open-source, V4-Pro-Max rattrape ou dépasse pour la première fois les flagships propriétaires sur plusieurs benchmarks de codage et de contexte long, mais reste en retard sur Gemini 3.1 Pro dans les évaluations intensives en connaissances. Il est à noter que la comparaison ci-dessus n'inclut pas les récemment publiés GPT-5.5 et Opus 4.7 ; l'écart entre V4 et les derniers modèles propriétaires devra être vérifié par des tests tiers. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé