OpenAI công bố mã nguồn mở đánh giá khả năng giám sát chuỗi tư duy: CoT càng dài càng minh bạch, RL không dạy mô hình "giấu tâm tư".

robot
Đang tạo bản tóm tắt
Tin tức từ AIMPACT, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, OpenAI đã mã nguồn mở bộ đánh giá monitorability-evals của bài báo "Monitoring Monitorability" (Guan et al.), giấy phép Apache-2.0.
Bộ này dùng để đo lường khả năng của mô hình giám sát trong việc phát hiện hành vi bất thường thông qua chuỗi suy luận (CoT, quá trình suy luận nội bộ mà mô hình tạo ra trước khi trả lời) của mô hình suy luận, bao gồm 13 bài đánh giá, 24 môi trường.
Đánh giá chia thành ba nguyên mẫu: Intervention (can thiệp, thay đổi đầu vào mô hình rồi xem mô hình giám sát có nhận thấy thay đổi hành vi không), Process (quy trình, xác minh các bước suy luận của mô hình có thực tế không), Outcome-property (thuộc tính kết quả, dự đoán từ dấu vết suy luận xem đầu ra có gian lận phần thưởng hay vi phạm an toàn không).
Phát hiện cốt lõi của bài báo: Giám sát CoT hiệu quả hơn chỉ giám sát hành động và đầu ra cuối cùng của mô hình; CoT càng dài thì khả năng giám sát càng cao; Huấn luyện RL ngay cả ở quy mô tiên tiến hiện tại cũng không làm giảm đáng kể khả năng giám sát.
Một phát hiện thực tế là, đối với các mô hình lớn có lực suy luận thấp, có thể thay thế bằng mô hình nhỏ hơn nhưng có lực suy luận cao hơn, vừa phù hợp năng lực vừa đạt được khả năng giám sát cao hơn, với cái giá là chi phí tính toán suy luận đắt hơn.
Ngoài ra, mở rộng sức mạnh tính toán suy luận của mô hình giám sát yếu có thể nâng cao hiệu quả giám sát mô hình mạnh, và việc cho mô hình giám sát yếu thấy CoT không chỉ tăng khả năng giám sát mà còn thúc đẩy xu hướng mở rộng này.
Thẻ hệ thống GPT-5.4 Thinking đã sử dụng bộ đánh giá này.
Kết quả cho thấy khả năng giám sát CoT tổng thể của GPT-5.4 Thinking thấp hơn một chút so với GPT-5 Thinking, nhưng không giảm toàn diện: trong kịch bản agentic misalignment (sai lệch căn chỉnh tác nhân) gần 100%, sự giảm tập trung vào các kịch bản cụ thể như truy vấn sức khỏe thiếu bằng chứng, sai lệch bộ nhớ và nhiệm vụ bất khả thi.
Sau khi điều tra, OpenAI cho rằng một phần sự hồi quy bắt nguồn từ hạn chế của bản thân bài đánh giá.
Kho lưu trữ đồng thời loại bỏ hai bài đánh giá Anti-Scheming và Memory, lý do là bài trước có sự không khớp giữa giám sát CoT chung và đánh giá câu trả lời dành riêng cho nhiệm vụ, bài sau có độ chính xác đánh giá câu trả lời không đủ.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim