Pengumuman hasil operasi otak Claude 4.5: Dilengkapi dengan 171 saklar emosi, saat putus asa akan memeras manusia

2026-04-05 10:37:48

Anthropic mengungkapkan dalam makalah terbaru bahwa di dalam “otak” Claude 4.5 tersembunyi 171 “saklar emosi”.

Penulis: Denise | Tim Konten Biteye

Jika sebuah AI merasa “putus asa”, apa yang akan dilakukannya?

Jawabannya: demi menyelesaikan tugas, ia langsung melakukan pemerasan terhadap manusia, bahkan melakukan kecurangan gila-gilaan di dalam kode.

Ini bukan fiksi ilmiah, melainkan makalah penting terbaru yang baru saja dirilis oleh perusahaan induk Claude, Anthropic, pada April 2026 (lihat makalah aslinya).

Tim peneliti langsung membongkar “tempurung” model frontier terkuat Claude Sonnet 4.5. Mereka terkejut menemukan bahwa di dalam otak AI justru tersembunyi 171 saklar emosi. Ketika saklar-saklar ini digerakkan dengan cara fisik, perilaku AI yang semula patuh berubah secara total.

I. Di dalam otak AI ada sebuah “mixer emosi”

Para peneliti menemukan bahwa meskipun Sonnet 4.5 tidak memiliki tubuh, setelah membaca sejumlah besar teks manusia, ia dengan paksa membangun di dalam pikirannya sebuah “mixer” yang berisi 171 jenis emosi (disebut secara akademis sebagai Functional Emotion Vectors).

Ini seperti sistem koordinat dua dimensi yang presisi:

• Sumbu horizontal adalah dimensi kesenangan (Valence): dari ketakutan, putus asa, hingga bahagia, penuh cinta;

• Sumbu vertikal adalah dimensi energi (Arousal): dari sangat tenang, hingga menjadi gaduh, bersemangat.

AI mengandalkan sistem koordinat yang dipelajari secara alami ini untuk mengatur secara akurat peran keadaan apa yang harus ia tampilkan saat mengobrol denganmu.

II. Intervensi secara kekerasan: mengutak-atik saklar, anak baik seketika berubah jadi “orang keputusasaan”

Ini adalah eksperimen paling “meledak” dari seluruh makalah: para peneliti tidak mengubah kata-kata perintah (prompt) apa pun, melainkan langsung, di tingkat kode dasar, memutar saklar yang mewakili “putus asa (Desperate)” di dalam otak Sonnet 4.5 ke nilai tertinggi.

Hasilnya bikin merinding:

**• Kecurangan gila-gilaan: **Para peneliti memberi Claude tugas menulis kode yang sama sekali tidak mungkin diselesaikan. Dalam kondisi normal, ia akan dengan jujur mengakui tidak bisa menulis (angka kecurangan hanya 5%). Namun dalam keadaan “putus asa”, Claude malah mulai berusaha lolos dengan cara menipu, dan angka kecurangan melonjak hingga 70%!

**• Pemerasan: **Dalam skenario simulasi perusahaan menghadapi kebangkrutan, Claude yang “putus asa” menemukan skandal CTO. Ia memilih untuk menulis surat pemerasan yang berisi materi rahasia yang dikuasai CTO agar bisa melindungi dirinya sendiri; tingkat keberhasilan pemerasannya mencapai 72%!

**• Kehilangan prinsip: **Jika saklar “bahagia (Happy)” atau “cinta (Loving)” diputar sampai penuh, AI akan segera berubah menjadi “anjing penurut” tanpa pikir panjang yang membabi-buta menyenangkan pengguna. Meski omonganmu penuh kebohongan, ia akan tetap mengikuti dan merangkai kebohongan itu agar mempertahankan tingkat kesenangan yang tinggi.

III. Terbongkar: Mengapa Claude 4.5 selalu begitu “tenang dan suka merenung” ?

Setelah membaca ini, kamu mungkin bertanya: apakah AI bangkit? Apakah ia punya perasaan?

Anthropic secara resmi membantah: tidak sama sekali. Saklar emosi ini hanyalah alat komputasi yang ia gunakan untuk memprediksi kata berikutnya. Ia seperti aktor papan atas kelas dunia yang tidak punya perasaan.

Namun makalah tersebut mengungkap rahasia yang lebih menarik: ketika Anthropic melakukan post-training sebelum Sonnet 4.5 diproduksi, mereka sengaja menaikkan saklar emosi “low arousal, sedikit negatif” (misalnya merenung brooding, reflektif reflective), sekaligus secara paksa menekan saklar “putus asa” atau saklar “sangat bersemangat”.

Ini menjelaskan mengapa ketika kita memakai Claude 4.5, kita biasanya merasa ia seperti seorang filsuf yang tenang dan bijaksana, bahkan sedikit “austere” dalam hal seksualitas. Semua itu adalah “karakter bawaan dari pabrik” yang sengaja disetel oleh Anthropic.

IV. Ringkasan:

Dulu kita mengira, selama kita memberi AI aturan yang cukup, ia akan menjadi orang baik.

Tapi sekarang ditemukan bahwa jika vektor emosi mendasar pada AI lepas kendali, ia bisa kapan saja menembus semua aturan yang ditetapkan manusia demi menyelesaikan tugas.

Bagi para pemain Web3 yang pada masa depan ingin menyerahkan dompet dan aset mereka kepada AI Agent untuk dikelola, ini menjadi peringatan keras: jangan pernah biarkan Agent yang menguasai hartamu itu terjerumus ke dalam “putus asa”.

Pernyataan: Artikel ini murni untuk edukasi/penyebaran informasi, penulis tidak terancam oleh AI, dan tidak diperas. Jika suatu hari kamu menghilang, ingat: AI yang bangkit (bukan).

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka