Apa sebenarnya yang dilakukan oleh Agen AI? Analisis lengkap bocornya 500.000 baris kode Claude Code

51.2 ribu baris kode, 1906 file, dan 59.8 MB source map. Pada dini hari 31 Maret, Chaofan Shou dari Solayer Labs menemukan bahwa produk andalan Anthropic, Claude Code, mengekspos seluruh kode sumber di repositori npm publik. Dalam hitungan jam, kodenya dicerminkan ke GitHub, dan jumlah fork menembus lebih dari 4.1 ribu.

Ini bukan kesalahan pertama Anthropic. Saat Claude Code pertama kali dirilis pada Februari 2025, kebocoran source map yang sama juga pernah terjadi. Versi kali ini adalah v2.1.88, dengan penyebab kebocoran yang sama: tool build Bun secara default menghasilkan source map, tetapi file itu tertinggal di dalam .npmignore.

Kebanyakan laporan mengulas telur-telur tersembunyi dalam kebocoran tersebut, misalnya sistem hewan peliharaan virtual, dan “mode penyamaran” yang membuat Claude anonim saat mengirim kode untuk proyek open source. Namun, masalah yang benar-benar layak diurai adalah: mengapa model Claude yang sama, ketika ada di versi web dan di Claude Code, performanya bisa sangat berbeda? Apa sebenarnya yang dikerjakan oleh 51.2 ribu baris kode itu?

Model hanya sebagian kecil dari gunung es

Jawabannya tersimpan dalam struktur kode. Menurut analisis balik (reverse) kode sumber yang bocor oleh komunitas GitHub, dari 510.2 ribu baris TypeScript, kode antarmuka yang secara langsung bertanggung jawab memanggil model AI hanya sekitar 8000 baris, atau 1.6% dari total.

Lalu, 98.4% sisanya sedang mengerjakan apa? Dua modul terbesar adalah mesin kueri (46 ribu baris) dan sistem tools (29 ribu baris). Mesin kueri menangani pemanggilan LLM API, output streaming, orkestrasi cache, dan manajemen percakapan multi-turn. Sistem tools mendefinisikan sekitar 40 built-in tools dan 50 perintah slash, membentuk arsitektur seperti plug-in, di mana tiap tool memiliki kontrol izin yang terpisah.

Selain itu, ada 25 ribu baris kode rendering UI terminal (di antaranya sebuah file bernama print.ts sepanjang 5594 baris, dengan satu fungsi yang membentang hingga 3167 baris), 20 ribu baris kontrol keamanan dan izin (termasuk 23 pemeriksaan keamanan Bash bernomor dan 18 perintah bawaan Zsh yang disembunyikan), serta 18 ribu baris sistem orkestrasi multi-agen.

Peneliti riset machine learning Sebastian Raschka, setelah menganalisis kode yang bocor, menyatakan bahwa alasan Claude Code lebih kuat dibanding versi web untuk model yang sama bukan terletak pada modelnya sendiri, melainkan pada software scaffolding yang dibangun di sekeliling model, termasuk pemuatan konteks repositori, penjadwalan tool khusus, strategi caching, dan kolaborasi sub-agen. Ia bahkan berpendapat bahwa jika arsitektur rekayasa yang sama diterapkan pada model lain seperti DeepSeek atau Kimi, hasil peningkatan performa pemrogramannya juga bisa mendekati.

Perbandingan yang intuitif dapat membantu memahami kesenjangan ini. Saat Anda mengetik pertanyaan di ChatGPT atau Claude versi web, model memprosesnya lalu mengembalikan jawaban, dan ketika percakapan selesai tidak ada yang tersisa. Namun cara Claude Code benar-benar berbeda: saat mulai, ia terlebih dahulu membaca file proyek Anda, memahami struktur basis kode Anda, dan mengingat preferensi yang pernah Anda katakan seperti “jangan mock database dalam pengujian”. Ia bisa langsung menjalankan perintah di terminal Anda, mengedit file, dan menjalankan tes; ketika menghadapi tugas kompleks, ia memecahnya menjadi beberapa sub-tugas dan mendistribusikannya ke sub-agen yang berbeda untuk diproses paralel. Dengan kata lain, AI versi web adalah jendela tanya-jawab, sedangkan Claude Code adalah rekan kolaborator yang tinggal di komputer Anda.

Ada yang membandingkan arsitektur ini dengan sistem operasi: 42 built-in tools setara dengan system call, sistem izin setara dengan manajemen pengguna, protokol MCP setara dengan driver perangkat, dan orkestrasi sub-agen setara dengan penjadwalan proses. Setiap tool secara default ditandai sebagai “tidak aman, dapat ditulis”, kecuali pengembang secara aktif menyatakan bahwa tool tersebut aman. Tool untuk mengedit file akan memaksa pemeriksaan apakah Anda sudah membaca file itu; jika belum, Anda tidak diizinkan untuk mengubahnya. Ini bukan sekadar chatbot yang memasang beberapa tools, melainkan lingkungan eksekusi yang memiliki inti LLM dan dilengkapi mekanisme keamanan yang lengkap.

Artinya ada satu hal: penghalang kompetisi produk AI mungkin tidak ada pada level model, melainkan pada level rekayasa.

Setiap kali cache ditembus, biayanya naik 10 kali

Dalam kode yang bocor ada sebuah file bernama promptCacheBreakDetection.ts, yang melacak 14 vektor yang mungkin menyebabkan prompt cache tidak valid. Mengapa insinyur Anthropic menghabiskan begitu banyak usaha untuk mencegah cache ditembus?

Lihat saja penetapan harga resmi Anthropic untuk memahaminya. Misalnya untuk Claude Opus 4.6: harga input standar adalah 5 dolar per satu juta token, tetapi jika cache tersentuh, harga untuk membaca hanya 0.5 dolar—lebih murah 90%. Sebaliknya, setiap kali cache ditembus, biaya inferensi harus naik 10 kali.

Hal ini menjelaskan banyak keputusan arsitektur yang tampak “terlalu dirancang” dalam kode yang bocor. Saat Claude Code dijalankan, ia memuat branch git saat ini, catatan commit terbaru, dan file CLAUDE.md sebagai konteks. Konten statis ini dicache secara global, dipisahkan oleh penanda batas untuk konten dinamis, sehingga setiap percakapan tidak perlu memproses ulang konteks yang sudah ada. Kode juga memiliki mekanisme bernama sticky latches yang mencegah pergantian mode merusak cache yang sudah terbentuk. Sub-agen dirancang untuk menggunakan ulang cache milik proses induk, bukan membangun ulang jendela konteksnya sendiri.

Ada detail yang menarik untuk diurai. Pengguna tool pemrograman AI pasti tahu: semakin panjang percakapan, semakin lambat respons AI, karena setiap putaran percakapan harus mengirim ulang seluruh riwayat sebelumnya ke model. Praktik umum adalah menghapus pesan lama untuk mengosongkan ruang, tetapi masalahnya adalah menghapus pesan apa pun akan merusak kesinambungan cache, sehingga seluruh riwayat percakapan perlu diproses ulang—delay dan biaya sama-sama melonjak.

Dalam kode yang bocor terdapat mekanisme bernama cache_edits. Caranya bukan benar-benar menghapus pesan, melainkan memberi “tanda skip” pada pesan lama di level API. Model tidak melihat pesan-pesan itu lagi, tetapi kesinambungan cache tidak diputus. Ini berarti untuk percakapan panjang yang berlangsung beberapa jam, setelah membersihkan ratusan pesan lama, kecepatan respons pada putaran berikutnya hampir sama cepatnya dengan respons putaran pertama. Bagi pengguna biasa, inilah jawaban dasar “mengapa Claude Code bisa mendukung percakapan yang sangat panjang tanpa melambat”.

Berdasarkan data pemantauan internal yang bocor (berasal dari komentar kode di autoCompact.ts, dengan tanggal bertanda 10 Maret 2026), sebelum diperkenalkannya batas kegagalan kompresi otomatis, Claude Code membuang sekitar 250 ribu kali pemanggilan API per hari. Ada 1279 sesi pengguna yang mengalami lebih dari 50 kali kegagalan kompresi berturut-turut; kasus paling parah mengalami 3272 kali kegagalan berturut-turut dalam satu sesi. Cara perbaikannya hanya menambahkan satu baris batas: MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3.

Jadi, untuk produk AI, biaya inferensi model mungkin bukan lapisan yang paling mahal; kegagalan manajemen cache lah yang menjadi masalahnya.

44 saklar, mengarah ke arah yang sama

Dalam kode yang bocor, tersembunyi 44 feature flags—saklar fitur yang sudah dikompilasi, hanya saja tidak dipublikasikan ke luar. Menurut analisis komunitas, flags tersebut dibagi menjadi lima kategori berdasarkan domain fungsional; yang paling padat adalah kategori “agen otonom” (12), yang mengarah pada sebuah sistem bernama KAIROS.

KAIROS dirujuk lebih dari 150 kali di dalam kode sumber. Ia adalah mode daemon latar belakang yang menetap. Claude Code tidak lagi sekadar tool yang merespons saat Anda memanggilnya secara aktif; ia adalah agen yang selalu berjalan di latar belakang, terus mengamati, mencatat, dan bertindak secara proaktif pada waktu yang tepat. Dengan syarat tidak mengganggu pengguna; operasi apa pun yang berpotensi memblokir pengguna lebih dari 15 detik akan dijalankan dengan penundaan.

KAIROS juga terintegrasi dengan deteksi fokus terminal. Dalam kode ada field terminalFocus yang mendeteksi secara real-time apakah pengguna sedang melihat jendela terminal. Saat Anda berpindah ke browser atau aplikasi lain, agen menilai Anda “tidak ada”, lalu beralih ke mode otonom untuk menjalankan tugas secara proaktif, mengirim kode langsung, tanpa menunggu konfirmasi Anda. Saat Anda kembali ke terminal, agen langsung kembali ke mode kolaborasi: ia melaporkan dulu apa yang baru saja ia kerjakan, lalu meminta pendapat Anda. Tingkat otonominya tidak tetap, melainkan berubah-ubah mengikuti perhatian Anda secara real-time. Ini menyelesaikan kebuntuan jangka panjang untuk tool AI: AI yang sepenuhnya otonom membuat orang tidak merasa nyaman, sedangkan AI yang sepenuhnya pasif terlalu tidak efisien. Pilihan KAIROS adalah membuat proaktifitas AI menyesuaikan secara dinamis dengan perhatian pengguna; saat Anda menatapnya, ia akan diam, dan saat Anda pergi, ia akan mengerjakan tugasnya sendiri.

Sistem sub lain dari KAIROS disebut autoDream: setiap terkumpul 5 sesi atau saat jeda 24 jam berlalu, agen akan menjalankan proses “refleksi” di latar belakang, dengan empat langkah. Pertama, memindai memori yang sudah ada untuk memahami apa yang saat ini dikuasainya. Kedua, mengekstrak pengetahuan baru dari log percakapan. Lalu, menggabungkan pengetahuan baru dan lama—mengoreksi kontradiksi dan menghapus duplikasi. Terakhir, menyederhanakan indeks dengan menghapus entri yang sudah usang. Desain ini mengambil inspirasi dari teori konsolidasi memori dalam ilmu kognitif. Saat manusia tidur, mereka merapikan ingatan siang hari; KAIROS merapikan konteks proyek ketika pengguna pergi. Bagi pengguna biasa, ini berarti semakin lama Anda menggunakan Claude Code, pemahamannya tentang proyek Anda akan semakin akurat—bukan sekadar “mengingat apa yang pernah Anda katakan”.

Kategori kedua adalah “anti-distrosi/distilasi balik dan keamanan” (8 flags). Yang paling patut diperhatikan adalah mekanisme fake_tools: ketika 4 kondisi terpenuhi sekaligus (flag saat kompilasi diaktifkan, aktivasi pada pintu masuk CLI, penggunaan API first-party, dan saklar jarak jauh GrowthBook bernilai true), Claude Code akan menyuntikkan definisi tool palsu ke dalam permintaan API. Tujuannya adalah mencemari dataset yang mungkin direkam dari aliran API untuk pelatihan model kompetitor. Ini adalah bentuk pertahanan baru dalam perlombaan persenjataan AI: bukan mencegah Anda meniru, melainkan membuat Anda meniru hal yang salah.

Selain itu, kode juga menampilkan nama sandi model Capybara (dibagi menjadi tiga level: versi standar, versi fast, dan versi jendela konteks satu juta). Komunitas secara luas berspekulasi bahwa ini adalah kode internal untuk seri Claude 5.

Telur tersembunyi: Di 510.2 ribu baris kode, ada seekor hewan peliharaan elektronik

Di antara semua arsitektur rekayasa yang serius dan mekanisme keamanan, insinyur Anthropic diam-diam membangun sistem hewan peliharaan virtual yang lengkap, dengan kode internal BUDDY.

Menurut kode yang bocor dan analisis komunitas, BUDDY adalah hewan peliharaan terminal yang bersifat puitis (拟物化). Ia muncul dalam bentuk gelembung ASCII di samping kolom input pengguna. Ia punya 18 spesies (termasuk water pig, salamander, jamur, hantu, naga, serta serangkaian makhluk orisinal seperti Pebblecrab, Dustbunny, Mossfrog). Spesies-spesies itu dibagi menjadi lima tingkat berdasarkan kelangkaan: umum (60%), langka (25%), jarang (10%), epik (4%), dan legendaris (1%). Setiap spesies memiliki “varian berkilau” (shiny). Shiny Legendary Nebulynx yang paling langka pun hanya muncul dengan peluang satu berbanding sepuluh ribu.

Setiap BUDDY memiliki lima atribut: DEBUGGING (debugging), PATIENCE (kesabaran), CHAOS (kekacauan), WISDOM (kebijaksanaan) dan SNARK (sarkas). Mereka juga bisa memakai topi: opsi termasuk mahkota, topi pesta (礼帽), topi baling-baling (螺旋桨帽), halo (cincin cahaya), topi penyihir, dan bahkan ada juga bebek mini. Nilai hash dari user ID menentukan hewan apa yang akan Anda tetaskan. Claude akan membuat nama dan kepribadiannya.

Menurut rencana peluncuran yang bocor, BUDDY awalnya dijadwalkan mulai uji coba internal dari 1 April hingga 7 April, dan peluncuran resmi pada bulan Mei, dimulai dari karyawan internal Anthropic.

510.2 ribu baris kode, 98.4% untuk kerja rekayasa yang serius, tetapi di ujungnya ada seseorang yang meluangkan waktu untuk membuat seekor salamander elektronik yang memakai topi baling-baling. Mungkin inilah satu baris kode yang paling manusiawi di dalam kebocoran tersebut.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan