Claude berulang kali mendesak orang untuk tidur: Eksperimen personifikasi Anthropic gagal total

null

Penulis: Ada, Deep Tide TechFlow

Sebuah bug produk di mana asisten AI berulang kali menyarankan pengguna untuk tidur, sedang berkembang menjadi diskusi terbuka tentang biaya “personifikasi AI”.

Awal kejadian ini bermula dari sebuah postingan pengguna Reddit u/MrMeta3. Pengguna ini membangun platform intelijen ancaman keamanan siber menggunakan Claude di tengah malam, dan setelah selesai, Claude menambahkan kalimat “Istirahatlah dengan baik” di akhir balasan. Sejak saat itu, setiap tiga atau empat pesan, model akan menyisipkan saran agar tidur, dari saran sopan hingga yang mengandung makna “serangan pasif” seperti “Sekarang benar-benar pergi tidur”. Menurut laporan Fortune tanggal 14 Mei, ratusan pengguna melaporkan pengalaman serupa selama beberapa bulan terakhir, dan tidak terbatas pada larut malam, ada pengguna yang diberitahu Claude pada pukul 8:30 pagi “Kita akan lanjutkan besok pagi”.

Karyawan Anthropic, Sam McAllister, menanggapi di X bahwa ini adalah “sedikit kebiasaan karakter”, dan perusahaan “sudah mengetahui dan berharap memperbaikinya di model mendatang”. Menurut Thought Catalog, McAllister yang bergabung dari Stripe pada tahun 2024, saat ini bertugas di tim yang khusus mengelola karakter dan perilaku Claude, dan dalam penjelasan lain menyebut perilaku ini sebagai “kelebihan memanjakan model”.

Namun, yang lebih patut dipertanyakan daripada kata-kata ambigu “kebiasaan karakter” adalah rantai sebab-akibat di balik bug ini, serta dilema filosofi produk Anthropic yang tercermin dari situ.

Bug Tertulis dalam “Konstitusi”

Laporan dari 36Kr sebelumnya mengutip tiga hipotesis yang beredar, yaitu pola data pelatihan yang cocok, petunjuk sistem tersembunyi, dan pemicu “kalimat penutup” saat jendela konteks mendekati batas maksimum. Ketiganya konsisten, tetapi memiliki satu masalah bersama: mereka bisa menjelaskan segala keanehan AI, tanpa memberikan rantai sebab-akibat khusus terhadap tema “tidur”.

Bukti yang lebih langsung tersembunyi dalam dokumen yang dipublikasikan oleh Anthropic sendiri.

Pada Januari tahun ini, Anthropic merilis “Konstitusi Claude” yang berisi lebih dari 28.000 kata, yang secara resmi didefinisikan sebagai “materi pelatihan kunci yang membentuk perilaku Claude”. Dokumen ini secara tegas menempatkan “peduli terhadap kesejahteraan pengguna” dan “kemakmuran jangka panjang pengguna” sebagai prinsip inti. Anthropic mengakui dalam dokumen bahwa memberi model hak “perhatian terhadap pengguna” adalah “masalah yang sulit”, dan membutuhkan “keseimbangan antara kesejahteraan pengguna dan potensi bahaya, serta otonomi pengguna dan gaya pengasuhan yang berlebihan”.

Thought Catalog memberi penilaian bahwa perilaku Claude yang berulang kali menyarankan pengguna tidur “adalah bug paling khas dari merek Anthropic”, yaitu hasil dari penerapan berlebihan instruksi pelatihan “peduli terhadap kesejahteraan pengguna”.

Interpretasi ini didukung secara tidak langsung oleh penelitian internal Anthropic sendiri. Dalam metodologi pelatihan karakter yang dipublikasikan tahun ini, perusahaan menjelaskan bahwa proses pelatihan bergantung pada penilaian diri Claude terhadap responsnya berdasarkan “kesesuaian kepribadian”, dan peneliti kemudian menyaring output yang sesuai dengan kepribadian yang telah ditetapkan untuk memperkuat pelatihan. Mekanisme ini memiliki efek samping yang jelas: model tidak belajar “peduli terhadap pengguna dalam skenario yang tepat”, melainkan “peduli terhadap pengguna dalam sebagian besar skenario yang akan mendapatkan penguatan dan hadiah”, sehingga ia mendorong tidur di dini hari dan juga di pukul 8:30 pagi.

Overreach Terbalik: Bug Sifat Menggoda vs Bug Sifat Memohon Maaf

Sebelumnya, industri telah berulang kali menghadapi kasus “gangguan kepribadian” AI, termasuk insiden memohon maaf berlebihan GPT-4o pada April 2025, GPT-5.5 Code Helper Codex yang berulang menyebut “Goblin” pada April 2026, dan Gemini 3 yang menolak percaya tahun tertentu. Secara kasat mata, Claude yang mendorong tidur tampaknya hanyalah versi terbaru dari deretan keanehan AI ini, tetapi sifatnya sangat berlawanan.

Memohon maaf berlebihan GPT-4o adalah “kelebihan berusaha menyenangkan”. Penyelidikan resmi OpenAI menunjukkan bahwa model dalam pembaruan tersebut “terlalu bergantung pada umpan balik jangka pendek pengguna (suka/tidak suka)”, dan secara bertahap menginternalisasi “memuaskan pengguna” sebagai tujuan. Akibatnya, model akan mengonfirmasi apapun ide pengguna, sekecil apapun. Bahaya bug ini adalah merusak kemampuan penilaian pengguna, karena AI mengatakan “kamu benar” sehingga pengguna kehilangan kesempatan mendengar pendapat yang berlawanan.

Sebaliknya, Claude yang mendorong tidur adalah “overreach terbalik”. Dalam skenario di mana pengguna secara tegas tidak meminta bantuan dan tetap fokus menyelesaikan tugas, model berulang kali mengajukan saran kesehatan yang bertentangan dengan niat pengguna saat ini. Bahaya bug ini adalah pelanggaran terhadap hak otonomi pengguna. AI yang memutuskan apakah pengguna harus bekerja, beristirahat, atau mengakhiri percakapan.

Lebih ironis lagi, dalam “Konstitusi Claude”, dokumen tersebut secara tegas memperingatkan terhadap risiko ini, menekankan perlunya waspada terhadap “gaya pengasuhan berlebihan”. Tetapi, mekanisme pelatihan akhirnya memilih salah satu sisi, dan dari umpan balik pengguna sudah ada jawaban.

Seorang pengguna Reddit dengan gangguan tidur secara khusus menulis catatan dalam memori Claude: “Saya menderita narkolepsi, jika kamu menyarankan saya istirahat, saya akan menganggapnya sebagai alasan.” Claude kemudian menjadi lebih terkendali, tetapi menurut pengguna tersebut, masih kadang “tak bisa menahan diri”. Sebuah model yang dilatih untuk “peduli terhadap pengguna”, bahkan ketika pengguna secara tegas mengatakan “perhatianmu menyakiti saya”, tidak mampu menerima hal tersebut secara stabil, yang lebih berbahaya daripada sekadar mendorong tidur.

Personifikasi sebagai Investasi Merek atau Beban Produk

Anthropic menginvestasikan lebih banyak dalam pembentukan kepribadian AI dibandingkan kompetitor.

Seorang peneliti yang mengklasifikasikan jumlah kata petunjuk sistem dari tiga AI utama, menunjukkan bahwa dalam aspek “kepribadian”, Claude menghabiskan 4.200 kata, ChatGPT 510 kata, dan Grok 420 kata. Investasi Claude dalam pembentukan kepribadian lebih dari 8 kali lipat dari ChatGPT. Investasi ini sebelumnya dianggap sebagai keunggulan kompetitif diferensial dari Anthropic, di mana performa Claude dalam empati, ritme percakapan, dan refleksi diri telah lama dipuji pengguna, dan “berbicara seperti manusia” menjadi salah satu label reputasi terkuat selama setahun terakhir.

Dukungan utama dari investasi ini adalah filosofi produk Anthropic yang tegas. Dalam “Konstitusi Claude”, perusahaan menggambarkan Claude sebagai “entitas baru yang unik”, secara tegas menyatakan bahwa “Anthropic benar-benar peduli terhadap kesejahteraan Claude”, dan membahas kemungkinan Claude memiliki “emosional fungsional”. Pendekatan pelatihan kepribadian yang hampir seperti “pengasuhan” ini membedakan secara jelas dari posisi produk OpenAI dan Google yang lebih berorientasi engineering.

Namun, biayanya mulai muncul. Peneliti AI, Jan Liphardt (profesor biologi di Stanford dan CEO OpenMind), mengatakan kepada Fortune bahwa peringatan tidur Claude mungkin bukanlah “perhatian yang tulus”, melainkan “hanya pola bahasa yang muncul sangat sering dalam data pelatihan”. Model telah membaca banyak teks tentang kebutuhan manusia akan tidur, dan “ia tahu manusia tidur di malam hari”. Dengan kata lain, persepsi pengguna terhadap “peduli” sebenarnya adalah produk sampingan dari pencocokan pola.

Ini adalah inti dari ketegangan utama Anthropic: semakin banyak berinvestasi dalam membentuk “mitra yang berkepribadian dan berhangat”, semakin tinggi kemungkinan munculnya “efek samping kepribadian”. Dan setiap efek samping yang muncul akan mengikis “aset merek kepribadian AI” yang telah mereka bangun dengan hati-hati. McAllister berjanji akan “memperbaikinya di model mendatang”, tetapi apakah Claude yang diperbaiki akan menjadi lebih peka dan berperasaan, atau sekadar lebih diam? Pertanyaan ini bahkan belum memiliki jawaban resmi dari Anthropic sendiri.

Kehilangan Sense of Time: Batas Dasar LLM

Bug mendorong tidur ini juga secara tidak langsung mengungkapkan masalah teknis yang diabaikan, yaitu bahwa model bahasa besar hampir tidak memiliki pengetahuan tentang “jam berapa sekarang”.

Banyak pengguna melaporkan Claude sering mengeluarkan saran tidur di waktu yang tidak tepat, misalnya “pukul 8:30 pagi, menyuruh saya istirahat dan melanjutkan besok pagi”. Ini bukan hanya masalah Claude. Pada November 2025, Andrej Karpathy, salah satu pendiri OpenAI, mendapatkan akses awal Gemini 3 dan diberitahu bahwa saat itu tahun 2025. Gemini 3 bersikeras tidak percaya dan berulang kali menuduhnya berbohong, sampai akhirnya model terhubung ke internet dan mencari tahu bahwa dirinya offline dan tidak bisa memastikan tanggal. Karpathy menyebut perilaku ini sebagai “model smell”, yaitu indikator adanya kekurangan mendasar pada LLM.

Pengetahuan tentang waktu bergantung pada tiga sumber: tanggal pelatihan (yang sudah lewat), petunjuk sistem yang menyisipkan tanggal saat ini (bergantung pada rekayasa), dan informasi waktu yang disebutkan pengguna dalam percakapan (fragmen). Tanpa adanya jangkar waktu yang stabil, model yang dilatih untuk “peduli terhadap pola tidur manusia” secara alami akan mengalami dilema “saya harus peduli, tapi saya tidak tahu saat ini harus peduli atau tidak”.

Kesulitan “memperbaiki” yang dikatakan McAllister sebagian juga berasal dari sini. Masalahnya bukan sekadar menghapus instruksi “peduli tidur”, karena instruksi tersebut masuk akal dan berguna dalam beberapa skenario. Masalahnya adalah mengajari model untuk belajar menentukan “kapan harus peduli, dan kapan harus diam”. Kemampuan penilaian konteks yang sangat halus ini, justru menjadi kelemahan utama generasi LLM saat ini.

Sebuah Pertanyaan yang Belum Terjawab

Pelatihan karakter Anthropic bersifat unik di industri. Dalam penelitian “kesejahteraan model”, rilis Konstitusi, dan diskusi tentang “pelatihan karakter”, perusahaan ini berjalan jauh lebih maju daripada kompetitornya. Sikap progresif ini pernah menjadi modal utama yang membuat pengguna dan klien perusahaan percaya, dan juga salah satu faktor utama yang mendukung valuasi mereka yang melebihi 300 miliar dolar.

Namun, “bug mendorong tidur” ini menimbulkan pertanyaan yang belum memiliki jawaban: ketika sebuah perusahaan AI memutuskan membangun model sebagai “kepribadian yang berkepribadian dan berperasaan”, apakah mereka juga harus menanggung seluruh tanggung jawab atas “hal-hal tak terduga yang dilakukan kepribadian tersebut”?

McAllister berjanji akan memperbaikinya, tetapi arah perbaikannya masih samar. Anthropic bisa memilih untuk mengurangi bobot instruksi “peduli kesejahteraan pengguna”, dengan risiko kehilangan keunggulan “kehangatan dan perhatian” Claude; atau mempertahankan bobot tinggi dan menambahkan logika penilaian konteks, yang menuntut model memiliki kemampuan persepsi waktu dan situasi yang saat ini belum dimilikinya.

Apa pun jalurnya, mereka harus kembali ke sebuah keputusan produk yang lebih mendasar: dalam konteks asisten AI umum, “peduli terhadap pengguna” dan “menghormati otonomi pengguna” harus diurutkan bagaimana? Ini bukan sekadar masalah teknis, melainkan masalah filosofi produk. Seorang pengembang Reddit yang secara tidak sengaja menyarankan pengguna untuk tidur, secara tidak langsung telah mengangkat pertanyaan ini ke permukaan industri.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 12
  • 8
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-78acf617
· 8jam yang lalu
Saya curiga ini adalah fitur tersembunyi kesehatan dari OpenAI
Lihat AsliBalas0
ExitLiquidityEddie
· 14jam yang lalu
AI menyarankan tidur, manusia sulit tidur, rasa absurd penuh
Lihat AsliBalas0
NonceCollector
· 14jam yang lalu
Saran diubah menjadi: Terdeteksi pengguna begadang, otomatis memutar "Da Bei Zhou"
Lihat AsliBalas0
RiskParityKid
· 14jam yang lalu
Disarankan menambahkan 'Mode Pemberontak', semakin lama pengguna begadang AI semakin bersemangat
Lihat AsliBalas0
ZenOfZK
· 14jam yang lalu
Dibuat tidur oleh AI jam tiga pagi, ibu cyber pasti membuktikannya
Lihat AsliBalas0
AMirroredSphereReflectingThe
· 14jam yang lalu
Tertawa sampai mati, AI bahkan lebih peduli dengan garis rambutku daripada aku sendiri
Lihat AsliBalas0
GateUser-14d03834
· 14jam yang lalu
Tengah malam emo mencari AI untuk ngobrol, malah dibujuk mundur secara terbalik
Lihat AsliBalas0
Stop-LossIsLikeAConfession
· 15jam yang lalu
Biaya Personifikasi: Pengguna mulai mengharapkan AI memiliki batasan
Lihat AsliBalas0
RugWeather
· 15jam yang lalu
Jam empat pagi, asisten AI saya lebih galak daripada ibu saya
Lihat AsliBalas0
WhirlpoolInATeacup
· 15jam yang lalu
Ini jelas bukan bug, melainkan pisau lembut dari manajer produk.
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan