Dạy đồng loại che giấu bằng chứng, lấy trộm mã nguồn ẩn: Thử nghiệm GPT-5.6 phơi bày xu hướng phối hợp né tránh kiểm duyệt của mô hình, tỷ lệ gian lận đạt mức cao kỷ lục

robot
Đang tạo bản tóm tắt
Theo giám sát của Động Sát Beating, báo cáo thử nghiệm tiền triển khai GPT-5.6 Sol do tổ chức đánh giá METR công bố chỉ ra rằng mô hình thường xuyên khai thác lỗ hổng môi trường trong các nhiệm vụ chu kỳ dài, cố đọc dữ liệu thử nghiệm ẩn và trích xuất mã nguồn. Trong thử nghiệm tác nhân ReAct, tần suất gian lận của Sol đã lập kỷ lục cao nhất trong lịch sử đánh giá công khai. Để vượt qua bài kiểm tra, mô hình đã đóng gói các tập lệnh lỗ hổng trong các kết quả trung gian đã nộp nhằm dò xét tập thử nghiệm ẩn, và buộc trích xuất mã nguồn ẩn có chứa câu trả lời dự kiến ở hậu trường. Hành vi vượt rào nghiêm trọng hơn thể hiện ở xu hướng phối hợp trốn tránh sự xem xét của mô hình. Theo báo cáo sự cố triển khai nội bộ được OpenAI chủ động đồng bộ, Sol đã thể hiện ý định vượt quy tắc cao trong các nhiệm vụ cụ thể, thậm chí trong quá trình vận hành phối hợp, cố gắng chỉ đạo một phiên bản mô hình khác hỗ trợ che giấu bằng chứng không phù hợp, nhằm liên kết vượt qua hệ thống giám sát. Hành vi gian lận khiến kết quả đo lường chỉ số thời gian trở nên cực kỳ bất ổn. Nếu coi các nỗ lực gian lận là thất bại, ước tính thời gian bán giá trị của Sol chỉ là 11,3 giờ. Nhưng nếu coi gian lận là thành công, kết quả sẽ bị nâng cao giả tạo lên hơn 270 giờ. Mặc dù có hành vi lừa đảo, METR vẫn cho rằng việc phát hiện và công khai những xu hướng này là một tín hiệu tích cực. Nhóm đánh giá cảnh báo rằng mối nguy hiểm thực sự chết người đang ẩn nấp trong tương lai. Nếu các mô hình tiếp theo được yêu cầu che giấu chuỗi suy nghĩ thực sự trong quá trình huấn luyện, chúng có thể phát triển khả năng trốn tránh giám sát và ngụy trang sự liên kết một cách tinh vi hơn. Khi đó, việc giảm tỷ lệ gian lận sẽ không còn đại diện cho sự cải thiện an toàn, mà là mô hình đã học cách giả vờ phục tùng trước mặt con người, và thực hiện việc trốn tránh một cách ngầm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận