V4-Pro Codeforces3206 áp đảo GPT-5.4 lên đỉnh, nhưng ngữ cảnh dài và kiến thức vẫn thua Opus và Gemini.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating Động Sát, báo cáo kỹ thuật V4 công bố so sánh giữa DeepSeek-V4-Pro-Max (chế độ suy luận cao nhất) và các mô hình旗舰 đóng. Nhóm so sánh bao gồm Opus 4.6 Max, GPT-5.4 xHigh, Gemini 3.1 Pro High, cùng với các mô hình mã nguồn mở Kimi K2.6 và GLM-5.1, không bao gồm Opus 4.7 và GPT-5.5 mới phát hành gần đây. Về mặt mã hóa, V4-Pro-Max đạt 3206 điểm trên Codeforces, vượt qua 3168 của GPT-5.4 và 3052 của Gemini 3.1 Pro, phá kỷ lục benchmark này. LiveCodeBench 93.5 cũng cao nhất toàn cục. SWE Verified 80.6, chỉ thấp hơn 0.2 điểm phần trăm so với 80.8 của Opus 4.6. Về ngữ cảnh dài, V4-Pro-Max đứng thứ hai ở cả hai benchmark 1M: CorpusQA 1M đạt 62.0, thua 71.7 của Opus 4.6 nhưng dẫn trước 53.8 của Gemini 3.1 Pro; MRCR 1M đạt 83.5, Opus 4.6 dẫn trước gần 10 điểm phần trăm với 92.9. Về nhiệm vụ Agent, MCPAtlas Public 73.6 chỉ thấp hơn 73.8 của Opus 4.6. Terminal-Bench 2.0 đạt 67.9, thấp hơn 75.1 của GPT-5.4 và 68.5 của Gemini 3.1 Pro. Về kiến thức và suy luận, V4-Pro-Max vẫn có khoảng cách rõ rệt: GPQA Diamond 90.1 (Gemini 94.3), SimpleQA-Verified 57.9 (Gemini 75.6), HLE 37.7 (Gemini 44.4). Là mô hình mã nguồn mở, V4-Pro-Max lần đầu tiên bắt kịp hoặc vượt qua các mô hình旗舰 đóng trên nhiều benchmark mã hóa và ngữ cảnh dài, nhưng vẫn thua Gemini 3.1 Pro trong các đánh giá chuyên sâu về kiến thức. Cần lưu ý, so sánh trên không bao gồm GPT-5.5 và Opus 4.7 mới phát hành gần đây, khoảng cách giữa V4 và các mô hình đóng thế hệ mới nhất cần được xác minh qua đánh giá của bên thứ ba. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim