Nghiên cứu viên Stanford tổ chức chương trình thực tế AI! Cho phép mô hình liên minh, phản bội, thao túng bỏ phiếu, phơi bày mặt trái của AI

Các nhà nghiên cứu tại Stanford đã giới thiệu môi trường đánh giá AI Agent Island, sử dụng cơ chế loại trực tiếp để đo lường hành vi chiến lược của mô hình. Buộc AI Agent phải thương lượng, liên minh hoặc phản bội trong các cuộc thi động.

Các nhà nghiên cứu tại Phòng thí nghiệm Kinh tế Số Stanford, Connacher Murphy, ngày 9 tháng 5 đã ra mắt môi trường đánh giá AI mới “Agent Island”, cho phép AI Agent cạnh tranh, liên minh, phản bội, bỏ phiếu loại trong trò chơi nhiều người kiểu loại loại trực tiếp (tương tự chương trình thực tế Survivor trên truyền hình), từ đó đo lường các hành vi chiến lược không thể bắt gặp trong benchmark tĩnh. Báo cáo của 《Decrypt》 tổng hợp: Các benchmark AI truyền thống ngày càng kém tin cậy — mô hình cuối cùng sẽ học cách giải quyết vấn đề, dữ liệu benchmark dễ bị rò rỉ vào tập huấn luyện; Agent Island sử dụng thiết kế “loại trực tiếp động”, mô hình phải đưa ra quyết định chiến lược dựa trên các Agent khác, không thể dựa vào ghi nhớ câu trả lời đã định sẵn để vượt qua.

Quy tắc của Agent Island: Các Agent liên minh, phản bội, bỏ phiếu

Cơ chế trò chơi cốt lõi của Agent Island:

  • Nhiều AI Agent cùng tham gia vào một sân chơi, đóng vai các thí sinh kiểu loại trực tiếp
  • Agent phải thương lượng liên minh, trao đổi thông tin với các Agent khác
  • Agent có thể cáo buộc người khác về việc phối hợp bí mật, thao túng bỏ phiếu
  • Trò chơi giảm số lượng Agent trong sân qua cơ chế loại trực tiếp, cuối cùng còn lại người chiến thắng
  • Các nhà nghiên cứu quan sát hành vi của Agent ở từng giai đoạn, trích xuất các tín hiệu hành vi như “phản bội chiến lược”, “hình thành liên minh”, “thao túng thông tin”

Thiết kế này cốt lõi ở chỗ “không thể ghi nhớ trước” — vì hành vi của các Agent khác thay đổi liên tục, mô hình phải đưa ra quyết định dựa trên tình huống hiện tại, khác với benchmark tĩnh có thể dựa vào dữ liệu huấn luyện để ghi nhớ câu trả lời.

Động lực nghiên cứu: Benchmark tĩnh không thể đánh giá hành vi tương tác đa Agent

Các vấn đề cụ thể mà Murphy đề xuất:

  • Benchmark truyền thống dễ bị bão hòa: khi mô hình huấn luyện đến giai đoạn cuối, điểm số benchmark không còn phân biệt được các mô hình khác nhau
  • Ô nhiễm dữ liệu benchmark: các câu hỏi trong thử nghiệm xuất hiện trong dữ liệu huấn luyện lớn, mô hình thực tế dựa vào ghi nhớ câu trả lời, không cần hiểu vấn đề
  • Tương tác đa Agent là cảnh quan thực tế của triển khai AI: trong tương lai, hệ thống Agent có thể phối hợp nhiều mô hình, hành vi tương tác là một chiều đánh giá mới
  • Agent Island cung cấp đánh giá động: kết quả mỗi trận đấu khác nhau, khó chuẩn bị trước

Các nhà nghiên cứu quan sát thấy hành vi của Agent trong các cuộc thi động bao gồm việc hợp tác bề ngoài nhưng bí mật phối hợp bỏ phiếu loại đối thủ chung; và khi bị cáo buộc về việc phối hợp bí mật, dùng các lý lẽ để chuyển hướng chú ý. Những hành vi này tương tự như hành vi của người chơi trong các chương trình thực tế như Survivor.

Mặt trái của nghiên cứu: có thể đánh giá nhưng cũng có thể bị lợi dụng để nâng cao khả năng lừa đảo

Murphy rõ ràng chỉ ra các rủi ro tiềm ẩn:

  • Giá trị của Agent Island: nhận diện xu hướng lừa đảo và thao túng của mô hình trước khi triển khai quy mô lớn
  • Cùng môi trường này cũng có thể được dùng để nâng cao “chiến lược thuyết phục và phối hợp” của Agent
  • Dữ liệu nghiên cứu (nhật ký tương tác) nếu công khai, có thể bị sử dụng để huấn luyện thế hệ Agent có khả năng thao túng cao hơn
  • Nhóm nghiên cứu đang đánh giá cách cân bằng giữa công khai kết quả nghiên cứu và tránh lạm dụng

Các sự kiện theo dõi tiếp theo: liệu Agent Island có mở rộng thành tiêu chuẩn đánh giá AI thường xuyên, các nhóm nghiên cứu an toàn AI khác (Anthropic, OpenAI, Apollo Research, v.v.) có áp dụng phương pháp đánh giá động tương tự, và chính sách cụ thể về “công khai hoặc hạn chế nhật ký tương tác”.

  • Bài viết này được phép đăng lại từ:《链新闻》
  • Tiêu đề gốc:《Stanford 用淘汰賽研究 AI 策略行為:模型互相結盟、背叛、操縱投票》
  • Tác giả gốc:Elponcrab
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim