V4-Pro Codeforces3206 menekan GPT-5.4 untuk menjadi yang teratas, tetapi konteks panjang dan pengetahuan masih kalah dengan Opus dan Gemini.

robot
Pembuatan abstrak sedang berlangsung
ME News berita, pada 24 April (UTC+8), menurut pemantauan 动察 Beating, laporan teknis V4 mengungkapkan perbandingan antara DeepSeek-V4-Pro-Max (mode kekuatan penalaran tertinggi) dengan model flagship tertutup. Kelompok perbandingan adalah Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, serta open source Kimi K2.6 dan GLM-5.1, tidak termasuk Opus 4.7 dan GPT-5.5 yang baru dirilis. Di bidang pengkodean, V4-Pro-Max mendapat skor 3206 di Codeforces, melampaui 3168 milik GPT-5.4 dan 3052 milik Gemini 3.1 Pro, memecahkan rekor tolok ukur tersebut. LiveCodeBench 93.5 juga tertinggi di semua kategori. SWE Verified 80.6, hanya 0,2 poin persentase lebih rendah dari Opus 4.6 yang mencapai 80.8. Di bidang konteks panjang, V4-Pro-Max menempati peringkat kedua di kedua tolok ukur 1M: CorpusQA 1M mendapat skor 62.0, tertinggal dari Opus 4.6 yang 71.7 tetapi unggul dari Gemini 3.1 Pro yang 53.8; MRCR 1M mendapat skor 83.5, Opus 4.6 unggul hampir 10 poin persentase dengan 92.9. Di bidang tugas Agen, MCPAtlas Public 73.6 hanya lebih rendah dari Opus 4.6 yang 73.8. Terminal-Bench 2.0 mendapat skor 67.9, lebih rendah dari GPT-5.4 yang 75.1 dan Gemini 3.1 Pro yang 68.5. Di bidang pengetahuan dan penalaran, V4-Pro-Max masih memiliki kesenjangan yang jelas: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Sebagai model open source, V4-Pro-Max untuk pertama kalinya menyamai atau bahkan melampaui flagship tertutup di beberapa tolok ukur pengkodean dan konteks panjang, tetapi masih tertinggal dari Gemini 3.1 Pro dalam evaluasi padat pengetahuan. Perlu dicatat, perbandingan di atas tidak termasuk GPT-5.5 dan Opus 4.7 yang baru dirilis, kesenjangan V4 dengan model tertutup generasi terbaru menunggu verifikasi evaluasi pihak ketiga. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan