Tinjauan Internal DeepSeek V4-Pro: Tingkat Lulus Pengkodean Mendekati Opus 4.5, 52% Penguji Mendukung sebagai Model Standar

Menurut pemantauan oleh Dongcha Beating, DeepSeek V4 jarang mengungkapkan data pengujian internal. Tim mengumpulkan sekitar 200 tugas R&D nyata dari lebih dari 50 insinyur, mencakup pengembangan fungsi, perbaikan bug, refaktorisasi, dan diagnostik, dengan tumpukan teknologi termasuk PyTorch, CUDA, Rust, dan C++. Setelah seleksi ketat, 30 tugas dipertahankan sebagai set evaluasi. Tingkat keberhasilan V4-Pro-Max adalah 67%, jauh lebih tinggi dari Sonnet 4.5 yang 47%, dan mendekati Opus 4.5 yang 70%, tetapi lebih rendah dari Opus 4.5 Thinking yang 73% dan Opus 4.6 Thinking yang 80%. Tingkat keberhasilan untuk Haiku 4.5 hanya 13%. Dalam survei internal dengan N=85, semua responden melaporkan menggunakan V4-Pro untuk pengkodean agenik dalam pekerjaan harian mereka. 52% percaya bahwa V4-Pro dapat berfungsi sebagai model pengkodean utama default, 39% cenderung setuju, dan kurang dari 9% tidak setuju. Masalah umpan balik utama meliputi kesalahan dasar, kesalahpahaman terhadap prompt yang samar, dan sesekali overthinking.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan