V4-Pro Codeforces3206壓GPT-5.4登頂,但長上下文和知識仍輸Opus與Gemini

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,V4 技術報告公佈 DeepSeek-V4-Pro-Max(最高推理力度模式)與閉源旗艦的對比。對比組為 Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High,以及開源的 Kimi K2.6 和 GLM-5.1,不含最近剛發佈的 Opus 4.7 和 GPT-5.5。 編碼方面,V4-Pro-Max 在 Codeforces 拿到 3206 分,超過 GPT-5.4 的 3168 和 Gemini 3.1 Pro 的 3052,刷新該基準紀錄。LiveCodeBench 93.5 同樣全場最高。SWE Verified 80.6,僅低於 Opus 4.6 的 80.8 差 0.2 個百分點。 長上下文方面,兩項 1M 基準 V4-Pro-Max 均排第二:CorpusQA 1M 得分 62.0,落後 Opus 4.6 的 71.7 但領先 Gemini 3.1 Pro 的 53.8;MRCR 1M 得分 83.5,Opus 4.6 以 92.9 領先近 10 個百分點。 Agent 任務方面,MCPAtlas Public 73.6 僅低於 Opus 4.6 的 73.8。Terminal-Bench 2.0 得分 67.9,低於 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。 知識與推理方面 V4-Pro-Max 仍有明顯差距:GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4)。作為開源模型,V4-Pro-Max 在多項編碼和長上下文基準上首次追平甚至超過閉源旗艦,但在知識密集型評測上仍落後 Gemini 3.1 Pro。 需要注意,以上對比不含最近剛發佈的 GPT-5.5 和 Opus 4.7,V4 與最新一代閉源模型的差距有待第三方評測驗證。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆