Evaluasi internal V4-Pro: Tingkat kelulusan pengkodean mendekati Opus4.5, 52% penguji internal mengakuinya sebagai model default.

robot
Pembuatan abstrak sedang berlangsung
ME News berita, 24 April (UTC+8), menurut pemantauan Beating, V4 secara langka mempublikasikan data dogfooding internal. Tim mengumpulkan sekitar 200 tugas pengembangan nyata dari lebih dari 50 insinyur, mencakup pengembangan fitur, perbaikan bug, refactoring, dan diagnosis, dengan tumpukan teknologi termasuk PyTorch, CUDA, Rust, C++. Setelah penyaringan ketat, 30 di antaranya dipertahankan sebagai set evaluasi. Tingkat kelulusan V4-Pro-Max adalah 67%, secara signifikan lebih tinggi dari 47% milik Sonnet 4.5, mendekati 70% milik Opus 4.5, tetapi lebih rendah dari 73% milik Opus 4.5 Thinking dan 80% milik Opus 4.6 Thinking. Tingkat kelulusan Haiku 4.5 hanya 13%. Dalam survei internal N=85, semua responden menggunakan V4-Pro untuk agentic coding dalam pekerjaan sehari-hari. 52% menganggap V4-Pro dapat menjadi model pengkodean utama default, 39% cenderung setuju, dan kurang dari 9% menolak. Masalah utama yang diumpan balik meliputi kesalahan tingkat rendah, kesalahpahaman terhadap prompt yang ambigu, dan sesekali overthinking. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan