Tin tức từ CoinWorld, nhóm SWE-bench đã phát hành chuẩn mới ProgramBench, đánh giá 9 mô hình AI tiên tiến trong nhiệm vụ tái tạo phần mềm thực tế, tỷ lệ hoàn thành hoàn toàn là 0%. Chuẩn này do nhóm nghiên cứu AI của meta phối hợp cùng Stanford và Harvard công bố, nhiệm vụ yêu cầu AI agent chỉ dựa vào một tệp nhị phân đã biên dịch và tài liệu hướng dẫn, từ đó xây dựng kiến trúc và thực hiện toàn bộ mã nguồn, tái tạo hành vi của chương trình gốc. Chuẩn gồm 200 nhiệm vụ, từ công cụ CLI nhỏ đến dự án lớn, kết quả thử nghiệm cho thấy, không có mô hình nào đạt tiêu chuẩn "hoàn toàn qua", Claude Opus 4.7 dẫn đầu về chỉ số phụ "gần như qua" với 3%, các mô hình còn lại đều là 0%.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim