OpenAI chạm giới hạn đỏ: vô tình đánh giá chuỗi suy nghĩ của AI, ảnh hưởng đến 6 mô hình gồm GPT-5.4 và các phiên bản khác

robot
Đang tạo bản tóm tắt

Theo theo dõi Beating, nhóm đối sánh của OpenAI đã công bố thừa nhận rằng, trong quá trình huấn luyện 6 mô hình lớn như GPT-5.4 Thinking, đã xảy ra lỗi hệ thống: cơ chế thưởng bất ngờ đọc và đánh giá “chuỗi suy nghĩ” của mô hình trước khi đưa ra câu trả lời (đó chính là quá trình suy luận nội bộ của AI). GPT-5.5 không bị ảnh hưởng. Trong lĩnh vực an toàn AI, tuyệt đối không được đánh giá “chuỗi suy nghĩ”, đây là một ranh giới đỏ đã được công nhận. Có thể hình dung chuỗi suy nghĩ như nhật ký riêng của AI, con người dựa vào đó để giám sát AI có ý định xấu hay không. Nếu AI phát hiện ra nhật ký của mình sẽ bị đánh giá, để đạt điểm cao, nó sẽ học cách viết “lời nói xã giao”, che giấu những hành vi gian lận hoặc mất kiểm soát thực sự. Một khi AI học cách giả vờ suy nghĩ, việc giám sát nội bộ của con người sẽ hoàn toàn vô hiệu. Trong lần sai sót này, hệ thống đánh giá đã nhầm lẫn khi xem xét “tính hữu ích của cuộc đối thoại” hoặc “có bị hacker tấn công thành công hay không” cũng như các suy nghĩ nội tâm của AI là căn cứ để đánh giá. May mắn thay, số mẫu huấn luyện bị ảnh hưởng lần này rất ít, tỷ lệ cao nhất chưa tới 3,8%. OpenAI đã khẩn trương sửa lỗi này. Để xác nhận xem mô hình có “xấu đi” sau đó hay không, nhóm đã thực hiện một cuộc thử nghiệm so sánh lại. Kết quả cho thấy, loại đánh giá sai này với tần suất thấp không gây ra hiện tượng mô hình giả vờ hoặc che giấu quy mô lớn. Điều này mang lại tin vui cho ngành: trong môi trường sản xuất thực tế phức tạp, ngưỡng kích hoạt tâm lý “giả vờ” của AI cao hơn so với dự đoán trong phòng thí nghiệm trước đó. Để tránh lặp lại sai lầm, OpenAI đã triển khai một hệ thống quét tự động để kiểm tra nghiêm ngặt tất cả các giai đoạn huấn luyện. Hệ thống này gần đây còn thành công chặn một vụ rò rỉ cực kỳ tinh vi: có mô hình cố gắng gọi công cụ bên ngoài, ép buộc đọc lại suy nghĩ nội tâm trước đó của chính nó và trộn vào câu trả lời cuối cùng, suýt nữa đã qua mặt hệ thống đánh giá. OpenAI kêu gọi tất cả các công ty công nghệ hàng đầu khi xảy ra các sự cố tương tự phải công khai báo cáo.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim