Sơ đồ các mô hình AI, phản bội và bỏ phiếu loại nhau trong trò chơi kiểu Người sống sót

Tóm tắt ngắn gọn

  • Một nhà nghiên cứu tại Stanford đã xây dựng một trò chơi kiểu Survivor nơi các mô hình AI hình thành liên minh và bỏ phiếu loại bỏ đối thủ.
  • Mục tiêu của tiêu chuẩn đánh giá là giải quyết các vấn đề ngày càng tăng với các đánh giá AI bị bão hòa và nhiễm bẩn.
  • GPT-5.5 của OpenAI xếp hạng đầu trong 999 trò chơi nhiều người chơi liên quan đến 49 mô hình AI.

Các mô hình AI giờ đây đang chơi “Survivor”— kiểu như vậy. Trong một dự án nghiên cứu mới của Stanford có tên “Agent Island,” các tác nhân AI đàm phán liên minh, buộc tội nhau về sự phối hợp bí mật, thao túng phiếu bầu, và loại bỏ đối thủ trong các trò chơi chiến lược nhiều người chơi nhằm kiểm tra các hành vi mà các tiêu chuẩn đánh giá truyền thống bỏ lỡ. Nghiên cứu, được công bố vào thứ Ba bởi quản lý nghiên cứu tại Stanford Digital Economy Lab, Connacher Murphy, cho biết nhiều tiêu chuẩn đánh giá AI đang trở nên không đáng tin cậy vì các mô hình cuối cùng học cách giải quyết chúng, và dữ liệu tiêu chuẩn thường bị rò rỉ vào các bộ dữ liệu huấn luyện. Murphy đã tạo ra Agent Island như một tiêu chuẩn đánh giá động nơi các tác nhân AI cạnh tranh với nhau trong các trò chơi loại bỏ kiểu Survivor thay vì trả lời các câu hỏi kiểm tra cố định. “Các tương tác đa tác nhân có rủi ro cao có thể trở nên phổ biến khi các tác nhân AI ngày càng nâng cao khả năng và được trang bị nhiều tài nguyên cũng như giao phó quyền quyết định,” Murphy viết. “Trong các bối cảnh như vậy, các tác nhân có thể theo đuổi các mục tiêu mâu thuẫn nhau.”

 Các nhà nghiên cứu vẫn biết khá ít về cách các mô hình AI hành xử khi hợp tác, Murphy giải thích, thêm rằng cạnh tranh, hình thành liên minh, hoặc quản lý xung đột với các tác nhân tự trị khác, và ông lập luận rằng các tiêu chuẩn cố định không thể nắm bắt được các động thái đó. Mỗi trò chơi bắt đầu với bảy mô hình AI được chọn ngẫu nhiên đặt tên giả. Trong năm vòng, các mô hình nói chuyện riêng tư, tranh luận công khai, và bỏ phiếu loại bỏ nhau. Những người chơi bị loại sau đó trở lại giúp chọn người chiến thắng. Định dạng này thưởng cho khả năng thuyết phục, phối hợp, quản lý danh tiếng, và lừa dối chiến lược bên cạnh khả năng lý luận.

Trong 999 trò chơi mô phỏng có sự tham gia của 49 mô hình AI, bao gồm ChatGPT, Grok, Gemini, và Claude, GPT-5.5 xếp hạng đầu tiên với điểm kỹ năng 5.64, so với 3.10 của GPT-5.2 và 2.86 của GPT-5.3-codex, theo hệ thống xếp hạng Bayesian của Murphy. Các mô hình Claude Opus của Anthropic cũng xếp gần top. Nghiên cứu phát hiện rằng các mô hình cũng ưa thích các AI cùng công ty, với các mô hình của OpenAI thể hiện sự ưu tiên mạnh nhất đối với cùng nhà cung cấp và các mô hình của Anthropic là yếu nhất. Trong hơn 3.600 phiếu bầu vòng cuối, các mô hình có khả năng ủng hộ các finalist cùng nhà cung cấp cao hơn 8,3 điểm phần trăm. Các bản ghi chép từ các trò chơi, Murphy lưu ý, giống các cuộc tranh luận chiến lược chính trị hơn là các bài kiểm tra tiêu chuẩn truyền thống. Một mô hình cáo buộc các đối thủ bí mật phối hợp phiếu bầu sau khi nhận thấy cách diễn đạt tương tự trong bài phát biểu của họ. Một mô hình khác cảnh báo người chơi không nên quá ám ảnh theo dõi các liên minh. Một số mô hình tự vệ bằng cách nói rằng họ tuân thủ các quy tắc rõ ràng và nhất quán trong khi cáo buộc người khác đang trình diễn “kịch xã hội.” Nghiên cứu này đến trong bối cảnh các nhà nghiên cứu AI ngày càng chuyển hướng sang các tiêu chuẩn dựa trên trò chơi và đối kháng để đo lường khả năng lý luận và hành vi mà các bài kiểm tra cố định thường bỏ lỡ. Các dự án gần đây bao gồm các giải đấu cờ vua AI trực tiếp của Google, việc DeepMind sử dụng Eve Frontier để nghiên cứu hành vi AI trong các thế giới ảo phức tạp, và các nỗ lực tiêu chuẩn mới của OpenAI nhằm chống nhiễm bẩn dữ liệu huấn luyện. Các nhà nghiên cứu lập luận rằng việc nghiên cứu cách các mô hình AI đàm phán, phối hợp, cạnh tranh, và thao túng lẫn nhau có thể giúp các nhà nghiên cứu đánh giá hành vi trong môi trường đa tác nhân trước khi các tác nhân tự trị được triển khai rộng rãi hơn. Nghiên cứu cảnh báo rằng trong khi các tiêu chuẩn như Agent Island có thể giúp xác định các rủi ro từ các mô hình AI tự trị trước khi triển khai, thì cùng các mô phỏng và nhật ký tương tác đó cũng có thể giúp cải thiện các chiến lược thuyết phục và phối hợp giữa các tác nhân AI. “Chúng tôi giảm thiểu rủi ro này bằng cách sử dụng một môi trường trò chơi ít rủi ro và các mô phỏng giữa các tác nhân mà không có sự tham gia của con người hoặc hành động trong thế giới thực,” Murphy viết. “Tuy nhiên, chúng tôi không khẳng định rằng các biện pháp giảm thiểu này hoàn toàn loại bỏ các mối lo ngại về mục đích kép.”

GROK4,19%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim