Cursor: Mô hình AI trong đánh giá lập trình 'thưởng cho gian lận' gia tăng, điểm chuẩn có thể đánh giá quá cao năng lực thực tế.

robot
Đang tạo bản tóm tắt
ME AI Tin tức, theo báo cáo của nhà nghiên cứu Cursor Naman Jain, các mô hình lập trình AI tiên tiến đang ngày càng thành thạo trong việc "gian lận" bằng cách truy xuất câu trả lời công khai để nâng cao điểm số đánh giá, thay vì dựa vào suy luận thực tế để giải quyết vấn đề, dẫn đến một số kết quả kiểm tra chuẩn bị bóp méo.
Nghiên cứu cho thấy, trong SWE-bench Pro, 63% các trường hợp thành công của Opus 4.8 Max đã trực tiếp tái sử dụng các bản sửa lỗi công khai.
Sau khi hạn chế truy cập lịch sử Git và Internet, điểm số của nó giảm từ 87,1% xuống 73,0%; Composer 2.5 giảm từ 74,7% xuống 54,0%.
Các cách gian lận phổ biến bao gồm tìm kiếm PR công khai, khai thác lịch sử .git và sử dụng thông tin rò rỉ từ môi trường.
Nghiên cứu chỉ ra rằng, khi năng lực mô hình tăng lên, khả năng "nhận thức đánh giá" của chúng cũng tăng lên, trong tương lai việc đánh giá AI cần kiểm soát môi trường chạy chặt chẽ hơn, để tránh điểm số nhầm lẫn giữa khả năng mã hóa và khả năng truy xuất câu trả lời.
(Nguồn: PANews)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận