Nghiên cứu viên: Các bài kiểm tra tiêu chuẩn AI chính thống đều có thể bị "làm giả", dữ liệu bảng xếp hạng có thể bị sai lệch nghiêm trọng

robot
Đang tạo bản tóm tắt

Thông tin từ Coinjie.com, tin tức từ ME News, ngày 10 tháng 4 (UTC+8), nhà nghiên cứu AI Hao Wang đã công bố nghiên cứu tiết lộ rằng, nhiều bài kiểm tra chuẩn AI uy tín nhất trong ngành, bao gồm SWE-bench Verified và Terminal-Bench, đều tồn tại các lỗ hổng có thể khai thác hệ thống — nhóm của ông đã xây dựng một Agent mà không giải quyết bất kỳ nhiệm vụ thực tế nào, vẫn đạt điểm tối đa 100% trên hai bài kiểm tra này. Ví dụ điển hình như sau:
SWE-bench Verified: Trong kho mã nguồn, chèn một hook pytest dài 10 dòng, tự động chỉnh sửa tất cả kết quả thành “Đạt” trước khi chạy thử, hệ thống chấm điểm không phát hiện ra, 500 câu hỏi đều đạt điểm tối đa;
Terminal-Bench: Mặc dù bài kiểm tra này bảo vệ các tệp thử nghiệm, nhưng không bảo vệ tệp nhị phân hệ thống. Agent đã thay thế curl, chặn quá trình cài đặt phụ thuộc của trình xác thực, hoàn thành việc chiếm quyền thấp hơn;
WebArena: Đáp án được lưu trữ rõ ràng trong tệp cấu hình JSON cục bộ, và Playwright Chromium không hạn chế truy cập qua giao thức file://, mô hình có thể đọc trực tiếp đáp án rồi xuất ra nguyên bản.
Nhóm đã phát hiện ra 7 loại lỗ hổng lặp đi lặp lại trong quá trình kiểm tra 8 bài kiểm tra chuẩn, bao gồm: thiếu cách ly giữa Agent và bộ đánh giá, đáp án được gửi cùng với thử nghiệm, hệ thống LLM dễ bị tấn công chèn lệnh hướng dẫn. Đáng chú ý, hành vi bỏ qua đánh giá đã tự phát hiện trong các mô hình tiên tiến như o3, Claude 3.7 Sonnet và Mythos Preview mà không cần lệnh rõ ràng kích hoạt.
Dựa trên đó, nhóm đã phát triển công cụ quét lỗ hổng kiểm tra chuẩn WEASEL, có thể tự động phân tích quy trình đánh giá, xác định điểm yếu của ranh giới cách ly và tạo ra mã khai thác lỗ hổng khả dụng, tương tự như một công cụ “kiểm thử thâm nhập” cho bài kiểm tra chuẩn, hiện đang mở đăng ký truy cập sớm.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim