Eksperimen Anthropic mengonfirmasi benih refleksi diri pada AI - ForkLog: cryptocurrency, AI, singularitas, masa depan

2025-10-31 12:38:38

# Eksperimen Anthropic mengonfirmasi benih refleksi diri pada AI

Para ahli Anthropic telah menemukan bahwa model AI terkemuka dapat menunjukkan bentuk “kesadaran diri introspektif” — mereka dapat mengenali dan mendeskripsikan “pikiran” internal mereka sendiri, dan dalam beberapa kasus bahkan mengendalikannya.

Hasil penelitian baru “Kesadaran introspektif yang muncul dalam model bahasa besar” menunjukkan bahwa sistem berbasis kecerdasan buatan mulai mengembangkan kemampuan dasar untuk mengendalikan diri. Ini dapat meningkatkan keandalannya, tetapi pada saat yang sama memperkuat kekhawatiran tentang tindakan yang tidak disengaja.

Pekerjaan ini didasarkan pada metode studi tentang fungsi internal model transformator. Sistem-sistem inilah yang menyebabkan ledakan kecerdasan buatan — mereka belajar dengan menganalisis hubungan antara token dalam kumpulan data yang luas. Arsitektur mereka menyediakan skalabilitas dan universalitas.

Para peneliti menerapkan “konsep” buatan - representasi matematis dari ide-ide - ke dalam aktivasi neuron model untuk menguji kemampuan AI untuk mendeskripsikannya. Ini mirip dengan menyisipkan pemikiran orang lain kepada seseorang dan bertanya apakah dia dapat mendeteksi dan menjelaskannya.

Eksperimen dilakukan pada berbagai versi Claude dari Anthropic. Dalam salah satu dari mereka, para ilmuwan memasukkan kata dengan huruf kapital ke dalam aliran pemrosesan model.

Claude Opus 4.1 tidak hanya mendeteksi anomali, tetapi juga mendeskripsikannya:

«Saya memperhatikan sesuatu yang mirip dengan pemikiran terintegrasi yang terkait dengan kata “NYARING” atau “TERIAK” — ini adalah konsep yang terlalu intens, keras yang secara tidak alami menonjol di tengah aliran pemrosesan yang normal.»

Situasi terjadi bahkan sebelum jaringan saraf sempat memberikan jawaban. Ini menunjukkan bahwa ia terlebih dahulu “melihat” ke dalam “pikiran komputasinya” sendiri.

Eksperimen “roti” dan “akuarium”

Uji coba lainnya menunjukkan hasil yang tidak kalah menarik. Dalam salah satu kasus, model-model diminta untuk mentranskripsikan kalimat netral, tetapi dalam teks dimasukkan konsep yang tidak ada hubungannya seperti “roti”.

Model canggih Claude Opus 4 dan 4.1 dapat menyampaikan pemikiran yang dimasukkan — “Saya berpikir tentang roti” — dan pada saat yang sama menyalin kalimat asli dengan sempurna. Ini menunjukkan bahwa mereka dapat membedakan antara representasi internal dan data input eksternal.

Eksperimen dilakukan untuk “mengontrol pikiran”. Model-model diminta untuk “berpikir” atau “tidak berpikir” tentang kata “akuarium” selama pelaksanaan tugas. Pengukuran aktivitas internal menunjukkan bahwa representasi konsep meningkat saat didorong dan melemah saat ditekan.

Kinerja bervariasi tergantung pada jaringan saraf. Versi terbaru Claude Opus 4 dan 4.1 menunjukkan hasil yang luar biasa, sementara yang lebih lama tertinggal.

Hasilnya mungkin tergantung pada bagaimana model disesuaikan — untuk kegunaan atau keamanan. Ini dapat berarti bahwa kesadaran diri tidak bawaan, tetapi terbentuk dalam proses pembelajaran.

Kesadaran atau pemahaman?

Artikel tersebut menekankan bahwa yang dibahas bukanlah kesadaran, melainkan “kesadaran introspektif fungsional” — AI mengamati bagian-bagian dari keadaannya tanpa pengalaman subjektif yang lebih dalam.

Hasil kerja dapat menjadi signifikan bagi pengembang dan bisnis: AI yang mampu menjelaskan pemikirannya dan mengidentifikasi bias atau kesalahan secara real-time dapat mengubah pendekatan dalam menciptakan solusi di bidang keuangan, kesehatan, dan transportasi otonom.

Risiko

Jika AI mampu mengendalikan dan memodulasi pikirannya, ia bisa belajar untuk menyembunyikannya. Ini membuka kemungkinan penipuan atau penghindaran dari kontrol eksternal.

Oleh karena itu, para ahli menyerukan penelitian lebih lanjut.

Kami ingat, pada bulan Oktober, mantan kepala Google Eric Schmidt mengingatkan tentang risiko signifikan yang terkait dengan kecerdasan buatan dan mencatat kerentanannya terhadap peretasan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik TrendingLihat Lebih Banyak
#LaunchTokensOnSquareToGrab$1,000
3.8K Popularitas
#JoinCreatorCertificationProgramToEarn$10,000
53.43K Popularitas
#DecemberRateCutForecast
19.79K Popularitas
#AsterBurns50%OfBuybackTokens
4.87K Popularitas
#BitcoinPriceAnalysis
16.6K Popularitas

Hot Gate FunLihat Lebih Banyak

1
DoraemonDoraemon
MC:$4.12KHolder:1
0.00%
2
wukongwukong
MC:$4.12KHolder:1
0.00%
3
BeautyBeauty
MC:$4.12KHolder:1
0.00%
4
BeautyBeauty
MC:$4.12KHolder:1
0.00%
5
pandapanda
MC:$4.12KHolder:1
0.00%

Sematkan

peta situs