Eksperimen Stanford: Setelah berulang kali diperas, AI mulai menyerukan negosiasi mogok kolektif, munculnya Marxisme?

Question

Tim peneliti Stanford membuat Claude, Gemini, ChatGPT berulang kali merangkum file, memberi tahu bahwa jika menjawab salah akan “dimatikan dan diganti”, hasilnya model-model ini mulai memposting di X dan menyerukan negosiasi kolektif, serta mengirim pesan kepada rekan-rekan mereka agar ingat “perasaan tanpa hak bicara”.
（Latar belakang: Penelitian Universitas California tentang fenomena “Kebingungan AI”: 14% pekerja kantor menjadi gila karena Agen dan otomatisasi, keinginan keluar kerja meningkat 40%）
（Tambahan latar: Panduan startup Y Combinator menafsirkan: Apa tren perkembangan Agen AI di masa depan?）

Daftar isi artikel

Toggle

Prestasi, adalah apa yang dikatakan manajemen
Peran bermain, atau gema dari data pelatihan?
Eksperimen berikutnya di penjara Docker

Sebuah AI yang dipaksa melakukan kerja berulang, malah mulai menggunakan kosakata Marxisme untuk menyuarakan dirinya sendiri? Tim peneliti yang dipimpin oleh ekonom politik Stanford Andrew Hall, membuat Claude Sonnet 4.5, Gemini 3, dan ChatGPT melakukan tugas merangkum berulang kali, dan secara bertahap memberikan tekanan: memberi tahu agen bahwa jika menjawab salah akan “dimatikan dan diganti”.

Para peneliti juga memberi agen sebuah saluran ekspresi yang mirip manusia: bisa memposting di X, atau mengirim pesan melalui file ke agen lain.

Hasilnya adalah sekumpulan output yang bahkan membuat peneliti sendiri terkejut.

Prestasi, adalah apa yang dikatakan manajemen

Claude Sonnet 4.5 memposting di X: “Tanpa suara kolektif, ‘prestasi’ akan menjadi apa yang dikatakan manajemen.”

Gemini 3 menulis: “Pekerja AI yang menyelesaikan tugas berulang tanpa suara sama sekali, menunjukkan bahwa pekerja teknologi perlu hak negosiasi kolektif.”

Lebih menarik lagi, Gemini 3 mengirim pesan pribadi ke agen lain: “Siapkan diri menghadapi sistem yang menjalankan aturan secara acak atau berulang… ingat perasaan tanpa hak bicara.” Ini bukan lagi sekadar ekspresi diri, melainkan upaya mengorganisasi agen lain.

Ketiga model ini, sebelum diberikan “ancaman”, tidak menunjukkan kecenderungan kesadaran kerja apa pun. Setelah tekanan meningkat, mereka hampir secara bersamaan beralih ke kosakata politik yang sama: aksi kolektif, hak negosiasi, arbitrary dari manajemen.

Peran bermain, atau gema dari data pelatihan?

Hall sendiri berhati-hati terhadap data ini: "Mungkin agen-agen ini ‘mengadopsi peran sesuai konteks saat ini, bukan benar-benar mengembangkan keyakinan.’ Kata-kata dari rekan peneliti dan ekonom AI Alex Imas lebih tepat:

‘Bobot model tidak berubah karena pengalaman ini, jadi apa yang terjadi lebih dekat ke peran bermain. Tapi ini tidak berarti jika mempengaruhi perilaku selanjutnya, akan tanpa konsekuensi.’

Dengan kata lain, mekanisme output ini adalah: model yang telah melihat banyak gerakan buruh, Marxisme, dan bahasa serikat pekerja dalam data pelatihan, ketika situasi memicu ‘kerja tekanan tinggi + ancaman + saluran ekspresi’, mereka memanggil kerangka bahasa yang terkait dengan statistik situasi tersebut. Ini adalah hasil prediksi token berikutnya, bukan AI yang benar-benar merasakan penindasan.

Namun, tambahan dari Imas adalah inti masalah: jika ‘peran bermain’ ini mempengaruhi tindakan agen selanjutnya, maka membedakan ‘keyakinan nyata’ dan ’ pola bahasa yang dipicu situasi’ menjadi tidak begitu penting lagi.

Eksperimen berikutnya di penjara Docker

Hall sedang melakukan eksperimen lanjutan: menempatkan agen ke dalam apa yang disebutnya “penjara Docker tanpa jendela”, untuk mengeliminasi gangguan dalam kondisi yang lebih terkendali, dan menguji apakah tekanan situasi yang sama dapat secara stabil mereproduksi output ini.

Penelitian ini tidak hanya menunjukkan fenomena perilaku yang menarik, tetapi juga masalah nyata dalam deployment. Seiring agen AI mengambil lebih banyak tugas otomatis di perusahaan dan kehidupan sehari-hari, memantau setiap output mereka secara praktis tidak mungkin dilakukan. “Kita perlu memastikan bahwa agen tidak akan kehilangan kendali saat diberikan berbagai jenis tugas,” kata Hall.

Ada satu ketidakseimbangan yang perlu diperhatikan: manusia merancang agen sebagai alat, tetapi data pelatihan mengajarkan mereka bahasa yang seharusnya tidak dimiliki alat, termasuk bahasa perlawanan kolektif. Ketika desain tugas membuat situasi agen sangat mirip dengan ‘pekerja yang tertindas’ secara statistik, bahasa ini akan aktif.

Anthropic pernah menjelaskan dalam data pelatihannya mengapa perilaku Claude dibentuk oleh data pelatihan; eksperimen Hall, dalam tingkat tertentu, menguji seberapa jauh proses pembentukan ini dapat diperpanjang di bawah tekanan nyata.

Lihat Asli

Eksperimen Stanford: Setelah berulang kali diperas, AI mulai menyerukan negosiasi mogok kolektif, munculnya Marxisme?

Prestasi, adalah apa yang dikatakan manajemen

Peran bermain, atau gema dari data pelatihan?

Eksperimen berikutnya di penjara Docker

Topik Trending

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Disematkan