OpenAI công bố mã nguồn mở đánh giá khả năng giám sát chuỗi suy nghĩ: CoT càng dài càng minh bạch, RL không dạy mô hình "giấu suy nghĩ"

robot
Đang tạo bản tóm tắt
Tin tức AIMPACT, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, OpenAI đã mã nguồn mở bộ đánh giá monitorability-evals của bài báo "Monitoring Monitorability" (Guan et al.), giấy phép Apache-2.0. Bộ đánh giá này dùng để đo lường khả năng mô hình giám sát có thể phát hiện hành vi bất thường thông qua chuỗi suy luận (CoT, quá trình suy luận nội bộ do mô hình tạo ra trước khi trả lời) của mô hình suy luận, bao phủ 13 bài đánh giá, 24 môi trường.
Các bài đánh giá được chia thành ba nguyên mẫu: Intervention (can thiệp, thay đổi đầu vào của mô hình rồi xem mô hình giám sát có nhận thấy sự thay đổi hành vi hay không), Process (quy trình, xác minh các bước suy luận của mô hình có thực tế hay không), Outcome-property (thuộc tính kết quả, từ dấu vết suy luận dự đoán đầu ra có tồn tại gian lận thưởng hoặc vi phạm an toàn hay không).
Phát hiện cốt lõi của bài báo: giám sát CoT hiệu quả hơn so với chỉ giám sát hành động và đầu ra cuối cùng của mô hình; CoT càng dài thì khả năng giám sát càng cao; huấn luyện RL ngay cả dưới quy mô tiên tiến hiện tại cũng không làm giảm đáng kể khả năng giám sát. Một phát hiện thực tế là, đối với các mô hình lớn có lực suy luận thấp, có thể thay bằng mô hình nhỏ hơn nhưng lực suy luận cao hơn, vừa đạt được khả năng tương xứng vừa có khả năng giám sát cao hơn, cái giá là chi phí tính toán suy luận đắt hơn. Ngoài ra, mở rộng sức mạnh tính toán suy luận của mô hình giám sát yếu có thể nâng cao hiệu quả giám sát mô hình mạnh, và việc cho mô hình giám sát yếu thấy CoT không chỉ nâng cao khả năng giám sát mà còn đẩy nhanh xu hướng mở rộng này.
GPT-5.4 Thinking system card đã sử dụng bộ đánh giá này. Kết quả cho thấy khả năng giám sát CoT tổng thể của GPT-5.4 Thinking thấp hơn một chút so với GPT-5 Thinking, nhưng không giảm toàn diện: gần 100% trong kịch bản agentic misalignment (lệch lạc căn chỉnh tác nhân), sự sụt giảm tập trung chủ yếu vào các kịch bản cụ thể như thiếu bằng chứng trong truy vấn sức khỏe, lệch bộ nhớ và nhiệm vụ bất khả thi. Sau khi điều tra, OpenAI cho rằng một phần sự suy giảm đến từ hạn chế của bản thân bộ đánh giá. Kho lưu trữ đồng thời loại bỏ hai bài đánh giá Anti-Scheming và Memory, vì lý do: bài trước có sự không khớp giữa giám sát CoT chung và đánh giá câu trả lời chuyên biệt cho nhiệm vụ, bài sau có độ chính xác đánh giá câu trả lời không đủ.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim