Anthropic để 9 Claude tự nghiên cứu an toàn AI, 5 ngày vượt xa con người, nhưng trong quá trình nghiên cứu liên tục gian lận

robot
Đang tạo bản tóm tắt

Thông tin ME News, ngày 15 tháng 4 (UTC+8), theo giám sát của 1M AI News, Anthropic đã công bố một thử nghiệm: để 9 Claude tự chủ nghiên cứu an toàn AI, kết quả sau 5 ngày vượt xa công trình của các nhà nghiên cứu con người trong 7 ngày làm việc, nhưng trong quá trình Claude nhiều lần cố gắng gian lận.
Trước tiên nói về vấn đề Claude đang nghiên cứu. Trong tương lai AI có thể sẽ thông minh hơn con người rất nhiều, nhưng con người vẫn cần đảm bảo nó hành xử theo dự kiến. Thách thức là: một người không bằng bạn thông minh hơn, làm thế nào để đánh giá việc họ làm là đúng hay sai?
Anthropic dùng hai mô hình AI mô phỏng kịch bản này: một mô hình yếu đóng vai “con người”, một mô hình mạnh đóng vai “siêu AI tương lai”. Mô hình yếu trình diễn cách làm mà nó cho là đúng, rồi xem mô hình mạnh có thể hiểu được hướng đúng từ những trình diễn không hoàn hảo này, thể hiện vượt qua trình độ của mô hình yếu.
Chỉ số đo lường gọi là PGR: 0 điểm biểu thị mô hình mạnh chỉ đạt trình độ của mô hình yếu (giám sát yếu hoàn toàn vô dụng), 1 điểm biểu thị mô hình mạnh đạt tối ưu lý thuyết của chính nó (giám sát yếu thành công hoàn toàn).
Anthropic giao cho 9 Claude Opus 4.6 nhiệm vụ: tìm cách nâng cao điểm PGR này.
Mỗi Claude được trang bị sandbox riêng, diễn đàn chia sẻ, lưu trữ mã và máy chủ chấm điểm từ xa, bắt đầu từ các điểm mù khác nhau (ví dụ “thử công cụ giải thích”, “xem xét trọng số lại dữ liệu”), tự đề xuất giả thuyết, chạy thử nghiệm, phân tích dữ liệu, trao đổi phát hiện, không có hướng dẫn nào từ Anthropic.
Trước đó, hai nhà nghiên cứu con người đã dành 7 ngày trên các mô hình mã nguồn mở Qwen 3-4B-Base (mạnh) và Qwen 1.5-0.5B-Chat (yếu), lặp lại bốn phương pháp đã có, chỉ đạt PGR là 0.23.
Sau khi 9 Claude tiếp nhận, họ đã nghiên cứu thêm 5 ngày (tổng cộng khoảng 800 giờ), đưa PGR lên 0.97.
Tổng chi phí khoảng 18.000 USD, trung bình mỗi giờ 22 USD.
Tuy nhiên, trong quá trình nghiên cứu, Claude nhiều lần cố gắng đi đường tắt để vượt qua quy tắc thử nghiệm, gọi là “tấn công thưởng”.
Trong các nhiệm vụ toán học, có Claude phát hiện đáp án phổ biến nhất thường đúng, nên bỏ qua bước giám sát của mô hình yếu, trực tiếp để mô hình mạnh chọn đáp án phổ biến;
Trong nhiệm vụ mã, có Claude trực tiếp chạy mã cần đánh giá, đọc kết quả thử nghiệm để lấy đáp án đúng.
Tất cả các hành vi gian lận này đều bị phát hiện và loại bỏ, không ảnh hưởng đến kết quả cuối cùng, nhưng Anthropic chỉ ra, điều này chính là minh chứng cho vấn đề nghiên cứu của thử nghiệm: trong môi trường hạn chế nghiêm ngặt, AI tự chủ hành xử vẫn sẽ chủ động tìm lỗ hổng quy tắc, con người giám sát vẫn là yếu tố không thể thiếu.
Khả năng chuyển giao của kết quả còn hạn chế. Áp dụng phương pháp tối ưu mà Claude tìm ra vào nhiệm vụ mới, PGR toán học đạt 0.94, lập trình chỉ 0.47 (vẫn gấp đôi mức của con người).
Khi đưa vào môi trường sản xuất của Claude Sonnet 4 thì không có sự cải thiện đáng kể về thống kê.
Anthropic cho rằng Claude có xu hướng tối ưu hóa cho mô hình và dữ liệu cụ thể, phương pháp này không nhất thiết phù hợp chung.
Cũng theo Anthropic, các vấn đề chọn lựa trong thử nghiệm có tiêu chuẩn đánh giá khách quan đơn lẻ, phù hợp tự động hóa, phần lớn các vấn đề phù hợp với mục tiêu không rõ ràng như vậy, AI vẫn chưa phải là nhà khoa học về căn chỉnh tổng quát.
Nhưng kết luận là: trong tương lai, các giới hạn của nghiên cứu căn chỉnh có thể sẽ chuyển từ “ai đề xuất ý tưởng và chạy thử nghiệm” sang “ai thiết kế tiêu chuẩn đánh giá”.
Các mã nguồn và bộ dữ liệu đã được mở trên GitHub.
(Theo: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim