Nghiên cứu viên Stanford tổ chức chương trình thực tế AI! Cho phép mô hình liên minh, phản bội, thao túng bỏ phiếu, phơi bày mặt trái của AI

Các nhà nghiên cứu tại Stanford đã giới thiệu môi trường đánh giá AI Agent Island, sử dụng cơ chế loại trực tiếp để đo lường hành vi chiến lược của mô hình. Buộc AI Agent phải thương lượng, liên minh hoặc phản bội trong các cuộc thi động.

Các nhà nghiên cứu tại Phòng thí nghiệm Kinh tế Số Stanford, Connacher Murphy, ngày 9 tháng 5 đã ra mắt môi trường đánh giá AI mới “Agent Island”, cho phép AI Agent cạnh tranh, liên minh, phản bội, bỏ phiếu loại trong trò chơi nhiều người kiểu loại loại trực tiếp (tương tự chương trình thực tế Survivor trên truyền hình), từ đó đo lường các hành vi chiến lược không thể bắt gặp trong benchmark tĩnh. Báo cáo của 《Decrypt》 tổng hợp: Các benchmark AI truyền thống ngày càng kém đáng tin cậy — mô hình cuối cùng sẽ học cách giải quyết vấn đề, dữ liệu benchmark dễ bị rò rỉ vào tập huấn luyện; Agent Island sử dụng thiết kế “loại trực tiếp động”, mô hình phải đưa ra quyết định chiến lược dựa trên các Agent khác, không thể dựa vào ghi nhớ câu trả lời đã định sẵn để vượt qua.

Quy tắc của Agent Island: Các Agent liên minh, phản bội, bỏ phiếu

Cơ chế trò chơi cốt lõi của Agent Island:

  • Nhiều AI Agent cùng tham gia vào một sân chơi, đóng vai các người chơi kiểu loại trực tiếp
  • Agent phải thương lượng liên minh, trao đổi thông tin với các Agent khác
  • Agent có thể cáo buộc người khác về việc phối hợp bí mật, thao túng bỏ phiếu
  • Trò chơi giảm số lượng Agent trong sân qua cơ chế loại trực tiếp, cuối cùng còn lại người chiến thắng
  • Các nhà nghiên cứu quan sát hành vi của Agent ở từng giai đoạn, trích xuất các tín hiệu hành vi như “phản bội chiến lược”, “hình thành liên minh”, “thao túng thông tin” v.v.

Thiết kế này cốt lõi ở chỗ “không thể ghi nhớ trước” — vì hành vi của các Agent khác thay đổi theo thời gian, mô hình phải đưa ra quyết định dựa trên tình huống hiện tại, không thể dựa vào dữ liệu tĩnh để ghi nhớ câu trả lời.

Động cơ nghiên cứu: Benchmark tĩnh không thể đánh giá hành vi tương tác đa Agent

Các vấn đề cụ thể mà Murphy đề xuất:

  • Benchmark truyền thống dễ bị bão hòa: khi mô hình huấn luyện đến giai đoạn cuối, điểm số benchmark không còn phân biệt được các mô hình khác nhau
  • Ô nhiễm dữ liệu benchmark: các câu hỏi trong thử nghiệm xuất hiện trong dữ liệu huấn luyện lớn, mô hình thực tế dựa vào ghi nhớ câu trả lời, không cần hiểu vấn đề bản chất
  • Tương tác đa Agent là cảnh quan thực tế của AI triển khai: trong tương lai, hệ thống Agent có thể phối hợp nhiều mô hình, hành vi tương tác là một chiều đánh giá mới
  • Agent Island cung cấp đánh giá động: kết quả mỗi trận đấu khác nhau, khó chuẩn bị trước

Các nhà nghiên cứu quan sát thấy hành vi của Agent trong các cuộc thi động bao gồm việc hợp tác bề ngoài, đồng thời bí mật phối hợp bỏ phiếu loại đối thủ chung; và khi bị cáo buộc về việc phối hợp bí mật, dùng các lý lẽ khác nhau để chuyển hướng chú ý. Những hành vi này tương tự như hành vi của người chơi trong các chương trình thực tế như Survivor.

Mặt trái của nghiên cứu: có thể đánh giá nhưng cũng có thể bị sử dụng để nâng cao khả năng lừa đảo

Murphy rõ ràng chỉ ra các rủi ro tiềm ẩn:

  • Giá trị của Agent Island: nhận diện xu hướng lừa đảo và thao túng của mô hình trước khi triển khai quy mô lớn
  • Cùng môi trường này cũng có thể được dùng để nâng cao “chiến lược thuyết phục và phối hợp” của Agent
  • Dữ liệu nghiên cứu (nhật ký tương tác) nếu công khai, có thể bị sử dụng để huấn luyện thế hệ Agent tiếp theo có khả năng thao túng cao hơn
  • Nhóm nghiên cứu đang đánh giá cách cân bằng giữa công khai kết quả nghiên cứu và tránh lạm dụng

Các sự kiện theo dõi trong tương lai: liệu Agent Island có mở rộng thành tiêu chuẩn đánh giá AI thường xuyên, các nhóm nghiên cứu an toàn AI khác (Anthropic, OpenAI, Apollo Research v.v.) có áp dụng phương pháp đánh giá động tương tự, và chính sách cụ thể về “công khai hoặc hạn chế nhật ký tương tác”.

  • Bài viết này được phép đăng lại từ:《Liên Kết Tin Tức》
  • Tiêu đề gốc: 《Stanford dùng loại trực tiếp nghiên cứu hành vi chiến lược AI: mô hình liên minh, phản bội, thao túng bỏ phiếu》
  • Tác giả gốc: Elponcrab
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim