据东查贝廷的监测,DeepSeek V4很少披露内部的自我测试数据。团队收集了来自50多名工程师的约200个真实的研发任务,涵盖功能开发、Bug修复、重构和诊断,技术栈包括PyTorch、CUDA、Rust和C++。经过严格筛选,保留了30个任务作为评估集。V4-Pro-Max的通过率为67%,明显高于Sonnet 4.5的47%,接近Opus 4.5的70%,但低于Opus 4.5 Thinking的73%和Opus 4.6 Thinking的80%。Haiku 4.5的通过率仅为13%。在一项N=85的内部调查中,所有受访者都表示在日常工作中使用V4-Pro进行代理编码。52%的受访者认为V4-Pro可以作为默认的主要编码模型,39%倾向于同意,少于9%不同意。主要的反馈问题包括基本错误、对模糊提示的误解以及偶尔的过度思考。
DeepSeek V4-Pro 内部レビュー:コーディング合格率がOpus 4.5に近づく、テスターの52%がデフォルトモデルとして推奨
据东查贝廷的监测,DeepSeek V4很少披露内部的自我测试数据。团队收集了来自50多名工程师的约200个真实的研发任务,涵盖功能开发、Bug修复、重构和诊断,技术栈包括PyTorch、CUDA、Rust和C++。经过严格筛选,保留了30个任务作为评估集。V4-Pro-Max的通过率为67%,明显高于Sonnet 4.5的47%,接近Opus 4.5的70%,但低于Opus 4.5 Thinking的73%和Opus 4.6 Thinking的80%。Haiku 4.5的通过率仅为13%。在一项N=85的内部调查中,所有受访者都表示在日常工作中使用V4-Pro进行代理编码。52%的受访者认为V4-Pro可以作为默认的主要编码模型,39%倾向于同意,少于9%不同意。主要的反馈问题包括基本错误、对模糊提示的误解以及偶尔的过度思考。