Đánh giá nội bộ V4-Pro: Tỷ lệ vượt qua mã hóa tiến gần Opus4.5, 52% người thử nghiệm nội bộ công nhận là mô hình mặc định.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 24 tháng 4 (UTC+8), theo giám sát của Beating, V4 hiếm khi công khai dữ liệu dogfooding nội bộ. Nhóm đã thu thập khoảng 200 nhiệm vụ nghiên cứu và phát triển thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc và chẩn đoán, với ngăn xếp công nghệ bao gồm PyTorch, CUDA, Rust, C++, sau khi sàng lọc nghiêm ngặt, giữ lại 30 làm bộ đánh giá. Tỷ lệ vượt qua của V4-Pro-Max là 67%, cao hơn đáng kể so với 47% của Sonnet 4.5, gần với 70% của Opus 4.5, nhưng thấp hơn 73% của Opus 4.5 Thinking và 80% của Opus 4.6 Thinking. Tỷ lệ vượt qua của Haiku 4.5 chỉ là 13%. Trong một cuộc khảo sát nội bộ với N=85, tất cả người được hỏi đều sử dụng V4-Pro cho agentic coding trong công việc hàng ngày. 52% cho rằng V4-Pro có thể là mô hình mã hóa chính mặc định, 39% có xu hướng công nhận, dưới 9% phủ nhận. Các vấn đề chính được phản hồi bao gồm lỗi cấp thấp, hiểu sai prompt mơ hồ và đôi khi suy nghĩ quá mức. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim