DeepSeek V4-Pro 内部评审:编码通过率接近 Opus 4.5,52% 测试者支持作为默认模型

根据东查贝丁的监测,DeepSeek V4 很少披露其自家使用(自用验证)的内部数据。团队从50多名工程师处收集了约200个真实的研发任务,覆盖功能开发、Bug修复、重构以及诊断;技术栈包括PyTorch、CUDA、Rust和C++。经过严格筛选,最终保留30个任务作为评估集。V4-Pro-Max 的通过率为67%,显著高于 Sonnet 4.5 的47%,接近 Opus 4.5 的70%,但低于 Opus 4.5 Thinking 的73%和 Opus 4.6 Thinking 的80%。Haiku 4.5 的通过率仅为13%。在一项 N=85 的内部调查中,所有受访者都表示在日常工作中使用 V4-Pro 进行代理式编码。52% 的受访者认为 V4-Pro 可以作为默认的主要编码模型,39% 倾向于同意,少于 9% 表示不同意。主要的反馈问题包括基础错误、对模糊提示的误解,以及偶尔的过度思考。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论