广场
最新
热门
资讯
我的主页
发布
V4-Pro Codeforces3206压GPT-5.4登顶,但长上下文和知识仍输Opus与Gemini
ME News
2026-07-02 06:40:26
关注
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,V4 技术报告公布 DeepSeek-V4-Pro-Max(最高推理力度模式)与闭源旗舰的对比。对比组为 Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High,以及开源的 Kimi K2.6 和 GLM-5.1,不含最近刚发布的 Opus 4.7 和 GPT-5.5。 编码方面,V4-Pro-Max 在 Codeforces 拿到 3206 分,超过 GPT-5.4 的 3168 和 Gemini 3.1 Pro 的 3052,刷新该基准纪录。LiveCodeBench 93.5 同样全场最高。SWE Verified 80.6,仅低于 Opus 4.6 的 80.8 差 0.2 个百分点。 长上下文方面,两项 1M 基准 V4-Pro-Max 均排第二:CorpusQA 1M 得分 62.0,落后 Opus 4.6 的 71.7 但领先 Gemini 3.1 Pro 的 53.8;MRCR 1M 得分 83.5,Opus 4.6 以 92.9 领先近 10 个百分点。 Agent 任务方面,MCPAtlas Public 73.6 仅低于 Opus 4.6 的 73.8。Terminal-Bench 2.0 得分 67.9,低于 GPT-5.4 的 75.1 和 Gemini 3.1 Pro 的 68.5。 知识与推理方面 V4-Pro-Max 仍有明显差距:GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4)。作为开源模型,V4-Pro-Max 在多项编码和长上下文基准上首次追平甚至超过闭源旗舰,但在知识密集型评测上仍落后 Gemini 3.1 Pro。 需要注意,以上对比不含最近刚发布的 GPT-5.5 和 Opus 4.7,V4 与最新一代闭源模型的差距有待第三方测评验证。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate股票转仓功能上线
53.61万 热度
#
Circle股价重挫17%
416.53万 热度
#
预测世界杯葡萄牙VS克罗地亚
16.28万 热度
#
GateCard上线积分体系
12.02万 热度
#
非农数据倒计时
92.15万 热度
置顶
网站地图
V4-Pro Codeforces3206压GPT-5.4登顶,但长上下文和知识仍输Opus与Gemini