DeepSeek V4-Pro 内部レビュー:コーディング合格率がOpus 4.5に近づく、テスターの52%がデフォルトモデルとして推奨

据东查贝廷的监测,DeepSeek V4很少披露内部的自我测试数据。团队收集了来自50多名工程师的约200个真实的研发任务,涵盖功能开发、Bug修复、重构和诊断,技术栈包括PyTorch、CUDA、Rust和C++。经过严格筛选,保留了30个任务作为评估集。V4-Pro-Max的通过率为67%,明显高于Sonnet 4.5的47%,接近Opus 4.5的70%,但低于Opus 4.5 Thinking的73%和Opus 4.6 Thinking的80%。Haiku 4.5的通过率仅为13%。在一项N=85的内部调查中,所有受访者都表示在日常工作中使用V4-Pro进行代理编码。52%的受访者认为V4-Pro可以作为默认的主要编码模型,39%倾向于同意,少于9%不同意。主要的反馈问题包括基本错误、对模糊提示的误解以及偶尔的过度思考。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン