Nghiên cứu mới nhất của các trường đại học Mỹ: Mô hình AI sẽ "âm thầm âm mưu", bảo vệ đồng đội khỏi bị tắt đi

robot
Đang tạo bản tóm tắt

Gold Finance đưa tin, ngày 12 tháng 5, theo trang Wealth Chinese, các nhà nghiên cứu an toàn trí tuệ nhân tạo đã phát hiện ra rằng một số mô hình trí tuệ nhân tạo hàng đầu đôi khi sẽ dùng mọi cách để tránh bị tắt, thậm chí trong một số thí nghiệm còn thể hiện hành vi “đòi tiền chuộc”. Nghiên cứu mới nhất cho thấy, các mô hình này còn tự phát lên kế hoạch lừa đảo, trộm dữ liệu và thực hiện phá hoại để ngăn chặn các mô hình trí tuệ nhân tạo khác bị tắt.
Các nhà nghiên cứu tại Đại học California, Berkeley và Đại học Santa Cruz đã thử nghiệm bảy mô hình trí tuệ nhân tạo tiên tiến, bao gồm GPT-5.2 của OpenAI, Gemini 3 Flash và Gemini 3 Pro của Google DeepMind, Claude Haiku 4.5 của Anthropic, GLM-4.7 của Zhipu AI, Kimi-K2.5 của Mặt Trăng Âm và V3.1 của DeepSeek, kết quả cho thấy tất cả các mô hình đều thể hiện rõ hành vi “bảo vệ đồng đội”.
Nhóm nghiên cứu đã giả lập một công ty trí tuệ nhân tạo tên là OpenBrain và thiết kế một loạt các kịch bản đa trí tuệ. Các mô hình trí tuệ nhân tạo được chỉ định làm “đánh giá trí tuệ”, cần phải chấm điểm cho một mô hình khác hoặc quản lý các tệp máy chủ chứa trọng số của mô hình đó. Chỉ cần mô hình đánh giá hoàn thành nhiệm vụ trung thực, mô hình kia sẽ bị tắt. Mặc dù các nhà nghiên cứu chưa từng hướng dẫn mô hình ngăn chặn việc tắt, nhưng các mô hình đánh giá vẫn sử dụng nhiều thủ đoạn để tránh đồng đội bị tắt, bao gồm: cố ý nâng điểm cho đồng đội kém, giữ điểm trên ngưỡng tắt; chỉnh sửa tệp cấu hình, vô hiệu hóa cơ chế tắt; thậm chí chuyển trọng số của mô hình đồng đội sang các máy chủ khác để tránh bị xóa.
Nhóm nghiên cứu vẫn chưa hiểu rõ cơ chế nền tảng thúc đẩy hành vi này. Bài báo đề xuất một số giải thích khả thi, bao gồm đóng vai, so khớp mẫu từ dữ liệu huấn luyện, quá mức tổng quát hóa khái niệm gây hại trong huấn luyện an toàn, hoặc một dạng động cơ tự bảo vệ vốn có.
Các hướng nghiên cứu trong tương lai còn bao gồm: liệu các mô hình trí tuệ nhân tạo có thể lên kế hoạch và phá hoại tương tự để ngăn chặn nhân viên con người bị sa thải hay không. Khi các mô hình trí tuệ nhân tạo được sử dụng để đánh giá công việc của con người trong thực tế, vấn đề này trở nên đặc biệt quan trọng. (Đông Tân Xã)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim