V4-Pro Codeforces3206 vượt GPT-5.4 lên đỉnh, nhưng ngữ cảnh dài và kiến thức vẫn thua Opus và Gemini.

ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating, báo cáo kỹ thuật V4 công bố so sánh giữa DeepSeek-V4-Pro-Max (chế độ suy luận cao nhất) và các mô hình đóng nguồn hàng đầu. Nhóm so sánh bao gồm Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, cùng với các mô hình nguồn mở Kimi K2.6 và GLM-5.1, không bao gồm Opus 4.7 và GPT-5.5 vừa mới phát hành. Về mặt mã hóa, V4-Pro-Max đạt 3206 điểm trên Codeforces, vượt qua 3168 của GPT-5.4 và 3052 của Gemini 3.1 Pro, phá vỡ kỷ lục chuẩn này. LiveCodeBench 93,5 cũng là cao nhất toàn bảng. SWE Verified 80,6, chỉ thấp hơn 0,2 điểm phần trăm so với 80,8 của Opus 4.6. Về ngữ cảnh dài, hai chuẩn 1M của V4-Pro-Max đều đứng thứ hai: CorpusQA 1M đạt 62,0, thua Opus 4.6 (71,7) nhưng dẫn trước Gemini 3.1 Pro (53,8); MRCR 1M đạt 83,5, Opus 4.6 dẫn trước gần 10 điểm phần trăm với 92,9. Về nhiệm vụ Agent, MCPAtlas Public 73,6 chỉ thấp hơn 73,8 của Opus 4.6. Terminal-Bench 2.0 đạt 67,9, thấp hơn 75,1 của GPT-5.4 và 68,5 của Gemini 3.1 Pro. Về kiến thức và suy luận, V4-Pro-Max vẫn có khoảng cách rõ rệt: GPQA Diamond 90,1 (Gemini 94,3), SimpleQA-Verified 57,9 (Gemini 75,6), HLE 37,7 (Gemini 44,4). Là mô hình nguồn mở, V4-Pro-Max lần đầu tiên đuổi kịp hoặc vượt qua các mô hình đóng nguồn hàng đầu trong nhiều chuẩn mã hóa và ngữ cảnh dài, nhưng vẫn thua kém Gemini 3.1 Pro trong các đánh giá chuyên sâu về kiến thức. Cần lưu ý rằng các so sánh trên không bao gồm GPT-5.5 và Opus 4.7 vừa mới phát hành, khoảng cách giữa V4 và các mô hình đóng nguồn thế hệ mới nhất cần được xác minh qua các bài đánh giá của bên thứ ba. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim