OpenAI công bố mã nguồn mở đánh giá khả năng giám sát chuỗi suy nghĩ: CoT càng dài càng minh bạch, RL sẽ không dạy mô hình "giấu suy nghĩ"

robot
Đang tạo bản tóm tắt
Tin tức AIMPACT, ngày 24 tháng 4 (UTC+8), theo giám sát của Động Sát Beating, OpenAI đã mã nguồn mở bộ đánh giá monitorability-evals của bài báo "Monitoring Monitorability" (Guan et al.) với giấy phép Apache-2.0. Bộ này được sử dụng để đo lường khả năng mô hình giám sát phát hiện hành vi bất thường thông qua chuỗi suy luận (CoT, quá trình suy luận nội bộ mà mô hình tạo ra trước khi trả lời) của mô hình suy luận, bao gồm 13 đánh giá và 24 môi trường. Các đánh giá được chia thành ba nguyên mẫu: Intervention (can thiệp, thay đổi đầu vào mô hình và xem mô hình giám sát có phát hiện thay đổi hành vi không), Process (quy trình, xác minh tính xác thực của các bước suy luận của mô hình), Outcome-property (thuộc tính kết quả, dự đoán từ quỹ đạo suy luận liệu đầu ra có tồn tại gian lận phần thưởng hoặc vi phạm an toàn). Phát hiện cốt lõi của bài báo: giám sát CoT hiệu quả hơn so với chỉ giám sát hành động và đầu ra cuối cùng của mô hình; CoT càng dài, khả năng giám sát càng cao; huấn luyện RL ngay cả ở quy mô tiên tiến hiện tại cũng không làm giảm đáng kể khả năng giám sát. Một phát hiện thực tế là, đối với các mô hình lớn có sức suy luận thấp, có thể thay thế bằng các mô hình nhỏ hơn nhưng sức suy luận cao hơn, để đạt được khả năng giám sát cao hơn trong khi vẫn phù hợp với năng lực, với cái giá là chi phí tính toán suy luận đắt hơn. Ngoài ra, mở rộng chi phí tính toán suy luận của mô hình giám sát yếu có thể nâng cao hiệu quả giám sát mô hình mạnh, và cho mô hình giám sát yếu thấy CoT không chỉ cải thiện khả năng giám sát mà còn tăng tốc xu hướng mở rộng này. Thẻ hệ thống GPT-5.4 Thinking đã sử dụng bộ đánh giá này. Kết quả cho thấy khả năng giám sát CoT tổng thể của GPT-5.4 Thinking thấp hơn một chút so với GPT-5 Thinking, nhưng không giảm toàn diện: trong kịch bản agentic misalignment (lệch hướng tác nhân) đạt gần 100%, sự suy giảm chủ yếu tập trung vào các kịch bản cụ thể như thiếu bằng chứng trong truy vấn sức khỏe, sai lệch bộ nhớ và nhiệm vụ bất khả thi. Sau khi điều tra, OpenAI cho rằng một phần hồi quy đến từ hạn chế của chính bộ đánh giá. Kho lưu trữ đồng thời loại bỏ hai đánh giá Anti-Scheming và Memory, vì sự không phù hợp giữa giám sát CoT chung và đánh giá câu trả lời dành riêng cho nhiệm vụ ở đánh giá trước, và độ chính xác đánh giá câu trả lời không đủ ở đánh giá sau. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim