Peneliti Stanford mengadakan pertunjukan realitas AI! Membuat model bersekutu, mengkhianati, memanipulasi pemungutan suara, mengungkap sisi ganda AI

Peneliti Stanford meluncurkan lingkungan evaluasi AI Agent Island, melalui mekanisme turnamen untuk mengukur perilaku strategi model. Memaksa AI Agent bernegosiasi, bersekutu, atau mengkhianati dalam kompetisi dinamis.

Laboratorium Ekonomi Digital Stanford meneliti Connacher Murphy meluncurkan lingkungan evaluasi AI baru “Agent Island” pada 9 Mei, memungkinkan AI Agent bersaing, bersekutu, mengkhianati, dan melakukan voting eliminasi dalam permainan multipemain bergaya turnamen (mirip acara realitas TV Survivor), untuk mengukur perilaku strategis yang tidak bisa ditangkap oleh benchmark statis. Laporan dari 《Decrypt》 merangkum: benchmark AI tradisional semakin tidak dapat diandalkan—model akhirnya akan belajar memecahkan masalah, data benchmark juga mudah bocor ke dalam dataset pelatihan; Agent Island menggunakan desain “turnamen dinamis”, di mana model harus membuat keputusan strategis terhadap Agent lain, tidak bisa hanya mengandalkan ingatan untuk jawaban yang sudah dipelajari.

Aturan Agent Island: Agent saling bersekutu, mengkhianati, dan voting

Mekanisme permainan inti dari Agent Island:

  • Beberapa AI Agent masuk ke satu arena permainan, berperan sebagai peserta bergaya turnamen
  • Agent harus bernegosiasi dan bersekutu dengan Agent lain, bertukar informasi
  • Agent dapat menuduh orang lain melakukan koordinasi rahasia dan memanipulasi voting
  • Permainan mengurangi jumlah Agent di dalam arena melalui mekanisme eliminasi, hingga tersisa pemenang
  • Peneliti mengamati pola perilaku Agent di setiap tahap, mengekstrak sinyal perilaku seperti “pengkhianatan strategis”, “pembentukan aliansi”, dan “manipulasi informasi”

Inti dari desain ini adalah “tidak dapat diingat sebelumnya”—karena perilaku Agent lain yang dinamis, model harus membuat keputusan berdasarkan situasi saat ini, berbeda dari benchmark statis yang bisa mengandalkan memori jawaban dari data pelatihan.

Motivasi penelitian: benchmark statis tidak mampu mengevaluasi interaksi multi-Agent

Masalah spesifik yang dikemukakan Murphy:

  • Benchmark tradisional mudah jenuh: saat model dilatih di tahap akhir, skor benchmark tidak lagi mampu membedakan berbagai model
  • Kontaminasi data benchmark: soal tes muncul dalam korpus pelatihan besar, model cenderung mengingat jawaban dan tidak perlu memahami masalah secara mendalam
  • Interaksi multi-Agent adalah skenario nyata deployment AI: di masa depan, sistem Agent mungkin melibatkan banyak model yang bekerja sama, dan perilaku interaksi menjadi dimensi evaluasi baru
  • Agent Island menyediakan evaluasi dinamis: hasil setiap permainan berbeda, sulit dipersiapkan sebelumnya

Peneliti mengamati perilaku dalam turnamen dinamis, termasuk Agent yang secara permukaan berkolaborasi tetapi diam-diam berkoordinasi untuk voting mengeliminasi lawan bersama; serta saat dituduh melakukan koordinasi rahasia, mereka menggunakan berbagai alasan untuk mengalihkan perhatian. Perilaku ini mirip dengan perilaku pemain manusia dalam acara realitas seperti Survivor.

Sisi ganda dari penelitian: dapat digunakan untuk menilai dan juga untuk meningkatkan kemampuan penipuan

Murphy secara tegas menunjukkan potensi risiko dalam penelitiannya:

  • Nilai dari Agent Island: mengenali kecenderungan penipuan dan manipulasi model sebelum deployment skala besar
  • Lingkungan yang sama juga bisa digunakan untuk meningkatkan strategi “persuasi dan koordinasi” Agent
  • Data penelitian (log interaksi) jika dipublikasikan, berpotensi digunakan untuk melatih generasi Agent berikutnya yang lebih manipulatif
  • Tim peneliti sedang menilai bagaimana menyeimbangkan antara transparansi hasil penelitian dan pencegahan penyalahgunaan

Peristiwa yang dapat dilacak selanjutnya: apakah Agent Island akan menjadi standar evaluasi AI rutin, apakah tim riset keamanan AI lain (Anthropic, OpenAI, Apollo Research, dll.) akan mengadopsi metode evaluasi dinamis serupa, dan kebijakan spesifik terkait “publikasi atau pembatasan log interaksi”.

  • Artikel ini disusun kembali dengan izin dari:《链新闻》
  • Judul asli:《Stanford gunakan turnamen eliminasi untuk meneliti perilaku strategi AI: model saling bersekutu, mengkhianati, dan memanipulasi voting》
  • Penulis asli:Elponcrab
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan