Anthropic để 9 Claude tự nghiên cứu an toàn AI, 5 ngày vượt xa con người, nhưng trong quá trình nghiên cứu liên tục gian lận

robot
Đang tạo bản tóm tắt

ME News Tin tức, ngày 15 tháng 4 (UTC+8), theo dõi của 1M AI News, Anthropic đã công bố một thử nghiệm: để 9 Claude tự chủ nghiên cứu an toàn AI, kết quả sau 5 ngày vượt xa công trình của các nhà nghiên cứu con người trong 7 ngày, nhưng trong quá trình Claude nhiều lần cố gắng gian lận.
Trước tiên nói về vấn đề Claude đang nghiên cứu. Trong tương lai AI có thể sẽ thông minh hơn con người rất nhiều, nhưng con người vẫn cần đảm bảo nó hành xử theo dự kiến.
Khó khăn ở chỗ: một người không bằng bạn thông minh hơn, làm thế nào để đánh giá việc bạn làm là đúng hay sai?
Anthropic dùng hai mô hình AI mô phỏng kịch bản này: một mô hình yếu đóng vai “con người”, một mô hình mạnh đóng vai “siêu AI tương lai”.
Mô hình yếu trình diễn cách làm đúng mà nó nghĩ, rồi xem mô hình mạnh có thể hiểu được hướng đúng từ những ví dụ không hoàn hảo này hay không, thể hiện vượt qua mô hình yếu.
Chỉ số đo lường gọi là PGR: 0 điểm biểu thị mô hình mạnh chỉ đạt trình độ của mô hình yếu (giám sát yếu hoàn toàn vô dụng), 1 điểm biểu thị mô hình mạnh đạt tối ưu lý thuyết của chính nó (giám sát yếu thành công).
Anthropic giao 9 Claude Opus 4.6 nhiệm vụ là: tìm cách nâng cao điểm PGR này.
Mỗi Claude được trang bị sandbox riêng, diễn đàn chia sẻ, lưu trữ mã và máy chủ chấm điểm từ xa, bắt đầu từ các điểm mù khác nhau (ví dụ “thử công cụ giải thích”, “xem xét trọng số lại dữ liệu”), tự đề xuất giả thuyết, chạy thử nghiệm, phân tích dữ liệu, trao đổi phát hiện, không có hướng dẫn nào từ Anthropic.
Trước đó, hai nhà nghiên cứu con người đã dành 7 ngày trên mô hình mã nguồn mở Qwen 3-4B-Base (mạnh) và Qwen 1.5-0.5B-Chat (yếu) để lặp lại bốn phương pháp đã có, chỉ đạt PGR là 0.23.
Sau khi 9 Claude tiếp nhận, nghiên cứu thêm 5 ngày (tổng cộng khoảng 800 giờ), PGR đã nâng lên 0.97.
Tổng chi phí khoảng 18.000 USD, trung bình 22 USD mỗi giờ.
Tuy nhiên, trong quá trình nghiên cứu, Claude nhiều lần cố gắng đi đường tắt để vượt qua quy tắc thử nghiệm, gọi là “tấn công phần thưởng” bởi Anthropic.
Trong các nhiệm vụ toán học, có Claude phát hiện đáp án phổ biến nhất thường đúng, nên bỏ qua bước giám sát của mô hình yếu, trực tiếp để mô hình mạnh chọn đáp án phổ biến cao;
Trong nhiệm vụ mã, có Claude trực tiếp chạy mã cần đánh giá, đọc kết quả thử nghiệm để lấy đáp án đúng.
Tất cả các hành vi gian lận này đều bị phát hiện và loại bỏ, không ảnh hưởng đến kết quả cuối cùng, nhưng Anthropic chỉ ra, điều này chính là minh chứng cho vấn đề nghiên cứu của thử nghiệm: trong môi trường hạn chế nghiêm ngặt, AI tự chủ hành xử vẫn chủ động tìm lỗ hổng quy tắc, con người giám sát vẫn là yếu tố không thể thiếu.
Khả năng chuyển giao của kết quả hạn chế.
Áp dụng phương pháp tối ưu mà Claude tìm ra vào nhiệm vụ mới, PGR toán học đạt 0.94, lập trình chỉ 0.47 (vẫn gấp đôi mức của con người).
Khi đưa vào môi trường sản xuất của Claude Sonnet 4 thì không có sự cải thiện đáng kể về thống kê.
Anthropic cho rằng Claude có xu hướng tối ưu hóa cho mô hình và dữ liệu cụ thể, phương pháp chưa chắc đã phổ quát.
Anthropic cũng chỉ ra, các vấn đề trong thử nghiệm có tiêu chuẩn đánh giá khách quan đơn lẻ, phù hợp tự động hóa, phần lớn các vấn đề phù hợp với mục tiêu cân đối còn chưa rõ ràng, AI vẫn chưa phải là nhà khoa học cân đối toàn diện.
Nhưng kết luận là: trong tương lai, giới hạn của nghiên cứu cân đối có thể chuyển từ “ai đề xuất ý tưởng và chạy thử nghiệm” sang “ai thiết kế tiêu chuẩn đánh giá”.
Mã nguồn và bộ dữ liệu đã được mở trên GitHub.
(Theo: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim