So sánh điểm chuẩn giữa Sakana Fugu và Fable 5 bị nghi ngờ, sự khác biệt về giàn giáo thử nghiệm có thể dẫn đến sai lệch 10-20 điểm.

robot
Đang tạo bản tóm tắt
ME AI tin, theo giám sát của Beating, hệ thống cộng tác đa tác nhân Fugu Ultra do startup AI Nhật Bản Sakana AI phát triển tuyên bố đã đánh bại mô hình hàng đầu Fable 5 của Anthropic trong nhiều bài kiểm tra chuẩn như suy luận khoa học và lập trình, nhưng kết luận điểm số đã bị cộng đồng nghi ngờ rộng rãi. Chỉ trích cho rằng so sánh dữ liệu tự kiểm tra trong các môi trường không thống nhất là không khách quan. Điểm số kiểm tra phụ thuộc nhiều vào scaffold (Scaffold/Harness) chạy, sự chênh lệch điểm số do các scaffold khác nhau có thể lên tới 10 đến 20 điểm, điều này khiến cho cái gọi là "vượt trội" phần lớn chỉ là sản phẩm của việc tối ưu hóa kỹ thuật hệ thống, chứ không phải là sự vượt trội thế hệ về năng lực mô hình cơ bản. Dữ liệu đánh giá độc lập cho thấy scaffold chạy tác nhân được xây dựng xung quanh mô hình lớn có ảnh hưởng lớn đến điểm số cuối cùng. Với cùng một mô hình Claude Opus 4.5, chỉ cần thay đổi ba scaffold mã nguồn mở khác nhau, tỷ lệ sửa lỗi trong bài kiểm tra chuẩn SWE-bench Pro đã dao động từ 50,2% đến 55,4%. Phân tích của tổ chức kiểm tra bên thứ ba Scale AI xác nhận thêm rằng các chiến lược vận hành như mẫu prompt, giới hạn số lần thử, quản lý lưu trữ ngữ cảnh và tích hợp gọi công cụ đủ để gây ra sự chênh lệch điểm số từ 10 đến 20 điểm trên cùng một bộ trọng số mô hình. Vì dữ liệu công bố của Sakana AI và Anthropic đều dựa trên scaffold đóng (Vendor Scaffold) được tối ưu hóa riêng cho hệ thống của mình, mà không được kiểm tra thống nhất trong môi trường độc lập tiêu chuẩn hóa của bên thứ ba (ví dụ: Scale SEAL), dữ liệu không thể phản ánh thực sự sức mạnh năng lực cơ bản của hai mô hình. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận